本文来自于百度的论文
PADDLESEG: A HIGH-EFFICIENTDEVELOPMENTTOOLKIT FORIMAGESEGMENTATION
分割任务中输入与输出的尺寸相同(这点与检测不同) 输入图像中的每个像素都被赋予一个类的标签(伪彩色图像中的不同颜色)分割网络用编码器(encoder)和解码器(decoder)组成。在编码器部分,特征图的大小逐渐减小;在解码器部分,特征图的大小逐渐增大,直到与输入图像有相同的大小。 如何使网络提高分割精度,这篇论文根据目前的现状总结到有5个方法,如下:
-
Skip connection 随着输入图像的分辨率下降,输入图像的低层信息丢失,最终编码机输出输入图像的高层信息;解码器只接受高层特征,导致粗分割结果,因此在解码器通过skip connection 将低层和高级特征结合起来,然后解码器通过增强不同级别的特征来获取更详细的信息。 全卷积网络(FCN)是skip connection的先驱,而U-Net则是进一步推动skip connection 他采用对称的编码器和解码器结构,与FCN不同,U-Net通过使用密集的skip connection 充分利用每一层的特征。 U-Net引起了医学的关注,现在又有很多U-Net的变形。如 attention U-Net,U-Net++等。 -
Dilated Convolution 分辨率随着降采样而逐渐降低,导致结果信息丢失,为了保持分辨率,如果只是单纯的减少下采样的数量,会使计算复杂度急剧增加,接受域的大小不断缩小,导致分割结果也不是很准确。因此引入了空洞卷积,通过保持分辨率和计算复杂度来扩大接受域。 -
Global context 除了Dilated convolution,还有一种增加接受域的替代方法,即利用上下文信息,由于卷积本质上是一种局部操作,它往往会导致上下文的缺失,一般来说,上下文信息(远远超出像素集外观)会意思到语义,并为构建分割模型提供一个有用补充源。金字塔池化最初是用在图像分类和目标检测到,然后将其引入到图像分割中,获取不同尺度的上下文信息,扩大接受域,最后结合局部和全局信息辅助决策。(如,在水中的穿在局部视图中可能会被归类为汽车,但结合全局上下文信息,可以正确的分类。如PSPNet以及DeepLab中的ASPP模块,除了局部特征外,全局上下文信息也有助于有效地产生更准确、更平滑的分割结果。 -
Attention Mechnism 除了上下文信息外,注意力机制还强调了关系之间的建模,由于卷积是一块操作,很难建立所有像素之间的关系。然而对于一个被分类的像素,所有像素的重要性并不相等。注意力机制通过允许模型自动搜索域目标像素分类相关的像素,有效地捕获了长期依赖关系,如果能够对像素之间关系的重要性进行建模,则可以明显增强来自同一类对象的像素贡献,从而更好获得分割结果。在对对象内部像素进行分类时,更倾向于通过与目标像素属于同一个对象的内部像素来辅助分类。如DANet双重注意力机制,OCRNet捕获了对象的上下文表示,多尺度注意力机制,对每个像素位置的多尺度特征进行软加权。 -
strong backbone ResNet与HRNet。 ResNet成功实现了一个更深层次的网络,并将残差表示建模到CNN网络结构中,解决了训练一个非常深的网络结构的困难。 HRNet通过并行连接高分辨率到低分辨率的卷积中,通过编码过程维护高分辨率表示。 Paddleseg还用知识蒸馏,使骨干网络实现了更高的精度。
如果模型只有一两个策略,它可以作为实时分割应用的轻量级模型,GSCNN是一个具有边界和形状约束的新模型。
|