开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【机器学习】顶会冠军图像分割算法深度解密 -> 正文阅读

[人工智能]【机器学习】顶会冠军图像分割算法深度解密

图像分割深度解密

data：2021.07.13
课程链接：图像分割深度解密
10分钟get语义分割模型基础及进阶设计思路；CVPR自动驾驶场景理解冠军方案策略解读；百度全新Transformer算法最新揭秘。
在这里插入图片描述

图像分割产业应用

在这里插入图片描述

图像分割任务简介

在这里插入图片描述

分类任务只需要回答里面有几个类别，比如说人、树、草地、天空；这个描述很粗糙，一万个人有一万个哈姆雷特。

语义分割是图像分类的扩展，是像素级别的。
在这里插入图片描述

全景分割是语义分割+实例分割的结合。

在这里插入图片描述

语义分割算法设计

在这里插入图片描述
其中最常用的：下采样用max-pooling最大池化、上采样用双线性插值法。
上面这个FCN已经实现了一个简单的分割模型了，但是这种简单的分割模型是得不到比较好的效果的。那如何提高分割模型的效果呢？这里的重点来了，我么你又五个基础的设计思路和两个进阶的设计思路。

基础设计思路1:跳跃链接（残差结构）[U-Net]

在这里插入图片描述
我们知道，网络在下采样的过程中会逐渐输出高阶信息，因此低阶的细节信息就会丢失，从而导致我们模型的分割结果比较粗糙，所以我们会加上跳跃链接让低层的信息和高层的信息融合起来，以此来弥补我们的细节丢失。这里的代表作就是U-net，这个模型在医疗和遥感领域应用的非常广泛，使用少量的数据就可以得到一个不错的效果，是一个分割入门的必备算法。

基础设计思路2:空洞卷积 [DeeplabV3]

在这里插入图片描述
这里是通过另外一个角度去看待下采样，由于下采样会丢失细节信息，那我们就减少下采样的层数，保持模型的高分辨率，这样细节信息丢失的就少了，但是会引发另外一个问题，就是计算量会倍增，感受野会减小，因此就有学者引入了空洞卷积的概念。我们可以看到在同样的卷积大小的情况下，我们的空洞卷积可以看到更大范围的内容。所以就能够得到更全的特征信息。著名的Deeplab系列就应用了这个方法，这个方法在工业界的应用特别多。什么任务都可以用deeplabv3跑一下。是一个通用的基础模型。

基础设计思路3：全局上下文 [PSPNet、DeepLabV3+]

为了获取更大的感受野
在这里插入图片描述
这里的代表作包括：PSPNet里的PPmodel，PP模块和Deeplabv3+里的asPP。这两个模块是他们提出来的，为什么影响这么大呢？这是因为在后面很多分割算法里面，都被采用到了，可见这个设计的思想是非常重要的。

上述这三个设计思路，都是在帮助模型增加信息，目前来看给大家的感觉就是信息越多越好，但是其实这是不怎么可能的，因为模型的容量毕竟有限。比如听这节课，你们能记住我说过的每一个词吗？显然是不行的，人脑的容量没有那么大。而且其实也没必要，只要记住关键的信息，就可以得到很好的效果。因此，现在的关键问题就是如何去注意到关键信息。这样注意力就很重要了，要去让模型找到注意力（重点）。

基础设计思路四：注意力 [OCRNet]

在这里插入图片描述
出了获取全局上下文信息，我们好需要获取像素点之间的关系强弱。通过进入注意力机制，来获取像素点的重要性关系。从而显示地增强来自同一物体的像素的贡献。
如果我们看右边的图，如果说，我们用非注意力机制的方法来分割，我们可以看到对于分类红色这个点，最外层蓝色的像素点对于我们的分类是毫无帮助的。因此这部分的计算是浪费的（无意义的）。注意力机制的方式，会更关注整体的车。
从左下角的图我们可以看到，卷积中蓝色的像素只关注周围部分像素的信息，而注意力关注了所有像素的信息。
其中的代表作是OCRNet，是一个基于CNN的sota模型。

前四个设计都是对于decoder的设计，都需要结合骨干网络。因此第五个基础设计就讲一下骨干网络。

基础设计思路五：骨干网络

在这里插入图片描述
骨干网络是深度学习模型的基本功，我们知道分割是像素级别的分类，因此骨干网络的分类精度会间接地影响到分类结果。因此，一般高精度的分割算法一般会采用高精度的骨干网络。
ResNet和HRNet这两个骨干网络，结合FCN就会达到比较好的效果。

举例：骨干网络就像是内功，内功好了，随便打一个简单的拳法（七伤拳）就可以打败很多高手了。

下面我们来看看上面讲的这五个基础设计思路（我又称之为提升思路），都有哪些模型采用了：
在这里插入图片描述
跳跃连接和骨干网络是最常用的基础设计模型。其中采用基础设计比较多的模型有Deeplabv3+、GSCNN（一个比较新基于CNN的模型）、OCRNet（SOTA 2021.07.13)。

在这里插入图片描述
遇到刷榜和打比赛的时候，就需要进阶设计了。

语义分割算法进阶设计

进阶分割模型设计1:多尺度注意力

在这里插入图片描述
我们之前所说的所有的模型，他们的输入只有一个，即使有多尺度方法也是在特征层面上的。而这里所说的多尺度指的是输入图片的多种尺寸，每一个尺寸的图片会过整个模型，最后再将不同输入尺寸对应的输出结果再过一个注意力模块。
这里我们做了一个实验，我们一般采用的是单尺度的OCRNet,它在验证集里面只能达到83%，如果我们用多尺度的，它的结果可以提升到87%，
在这里插入图片描述
通过注意力机制，可以选择性地选择哪一个尺度的输出结果，可以通过优势互补提升预测精度。

上面，我们讲的全都是基于CNN的分割模型，下面我们将介绍基于Transformer的分割模型。

进阶分割模型设计二：Transformer（全注意力模型）

在这里插入图片描述

在这里插入图片描述

固定尺寸会导致在多尺度图片中会存在缺陷，例如同样的尺寸，在大尺寸图片中可能代表一个小的局部，如果在小尺寸图片中，可能代表一个整体。

由于固定patch尺寸，因此计算量是图标大小的平方。

在这里插入图片描述
两个月之后，一个新的工作，通过层次化的图片切分方式，没有固定的切分大小，并添加了偏置的窗口。一定程度上，改善了ViT的缺陷。
其中两个关键的思路就是，1patch merging 2swin transformer Block
patch merging实现了CNN里面的一个下采样的机制
Swin transformer Block实现了attention的机制
在这里插入图片描述