[人工智能] 提高图像分割的一些tricks

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 提高图像分割的一些tricks -> 正文阅读

[人工智能]提高图像分割的一些tricks

本文来自于百度的论文

PADDLESEG: A HIGH-EFFICIENTDEVELOPMENTTOOLKIT FORIMAGESEGMENTATION

分割任务中输入与输出的尺寸相同（这点与检测不同）
输入图像中的每个像素都被赋予一个类的标签（伪彩色图像中的不同颜色）分割网络用编码器（encoder）和解码器（decoder）组成。在编码器部分，特征图的大小逐渐减小；在解码器部分，特征图的大小逐渐增大，直到与输入图像有相同的大小。
如何使网络提高分割精度，这篇论文根据目前的现状总结到有5个方法，如下：

Skip connection
随着输入图像的分辨率下降，输入图像的低层信息丢失，最终编码机输出输入图像的高层信息；解码器只接受高层特征，导致粗分割结果，因此在解码器通过skip connection 将低层和高级特征结合起来，然后解码器通过增强不同级别的特征来获取更详细的信息。
全卷积网络（FCN）是skip connection的先驱，而U-Net则是进一步推动skip connection 他采用对称的编码器和解码器结构，与FCN不同，U-Net通过使用密集的skip connection 充分利用每一层的特征。
U-Net引起了医学的关注，现在又有很多U-Net的变形。如 attention U-Net，U-Net++等。
Dilated Convolution
分辨率随着降采样而逐渐降低，导致结果信息丢失，为了保持分辨率，如果只是单纯的减少下采样的数量，会使计算复杂度急剧增加，接受域的大小不断缩小，导致分割结果也不是很准确。因此引入了空洞卷积，通过保持分辨率和计算复杂度来扩大接受域。
Global context
除了Dilated convolution，还有一种增加接受域的替代方法，即利用上下文信息，由于卷积本质上是一种局部操作，它往往会导致上下文的缺失，一般来说，上下文信息（远远超出像素集外观）会意思到语义，并为构建分割模型提供一个有用补充源。金字塔池化最初是用在图像分类和目标检测到，然后将其引入到图像分割中，获取不同尺度的上下文信息，扩大接受域，最后结合局部和全局信息辅助决策。（如，在水中的穿在局部视图中可能会被归类为汽车，但结合全局上下文信息，可以正确的分类。如PSPNet以及DeepLab中的ASPP模块，除了局部特征外，全局上下文信息也有助于有效地产生更准确、更平滑的分割结果。
Attention Mechnism
除了上下文信息外，注意力机制还强调了关系之间的建模，由于卷积是一块操作，很难建立所有像素之间的关系。然而对于一个被分类的像素，所有像素的重要性并不相等。注意力机制通过允许模型自动搜索域目标像素分类相关的像素，有效地捕获了长期依赖关系，如果能够对像素之间关系的重要性进行建模，则可以明显增强来自同一类对象的像素贡献，从而更好获得分割结果。在对对象内部像素进行分类时，更倾向于通过与目标像素属于同一个对象的内部像素来辅助分类。如DANet双重注意力机制，OCRNet捕获了对象的上下文表示，多尺度注意力机制，对每个像素位置的多尺度特征进行软加权。
strong backbone
ResNet与HRNet。
ResNet成功实现了一个更深层次的网络，并将残差表示建模到CNN网络结构中，解决了训练一个非常深的网络结构的困难。
HRNet通过并行连接高分辨率到低分辨率的卷积中，通过编码过程维护高分辨率表示。
Paddleseg还用知识蒸馏，使骨干网络实现了更高的精度。