IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【机器学习】顶会冠军图像分割算法深度解密 -> 正文阅读

[人工智能]【机器学习】顶会冠军图像分割算法深度解密

图像分割深度解密

data:2021.07.13
课程链接:图像分割深度解密
10分钟get语义分割模型基础及进阶设计思路;CVPR自动驾驶场景理解冠军方案策略解读;百度全新Transformer算法最新揭秘。
在这里插入图片描述

图像分割产业应用

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

图像分割任务简介

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
分类任务只需要回答里面有几个类别,比如说人、树、草地、天空;这个描述很粗糙,一万个人有一万个哈姆雷特。

语义分割是图像分类的扩展,是像素级别的。
在这里插入图片描述
在这里插入图片描述
全景分割是语义分割+实例分割的结合。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

语义分割算法设计

在这里插入图片描述
其中最常用的:下采样用max-pooling最大池化、上采样用双线性插值法。
上面这个FCN已经实现了一个简单的分割模型了,但是这种简单的分割模型是得不到比较好的效果的。那如何提高分割模型的效果呢?这里的重点来了,我么你又五个基础的设计思路和两个进阶的设计思路。

基础设计思路1:跳跃链接(残差结构)[U-Net]

在这里插入图片描述
我们知道,网络在下采样的过程中会逐渐输出高阶信息,因此低阶的细节信息就会丢失,从而导致我们模型的分割结果比较粗糙,所以我们会加上跳跃链接让低层的信息和高层的信息融合起来,以此来弥补我们的细节丢失。这里的代表作就是U-net,这个模型在医疗和遥感领域应用的非常广泛,使用少量的数据就可以得到一个不错的效果,是一个分割入门的必备算法。

基础设计思路2:空洞卷积 [DeeplabV3]

在这里插入图片描述
这里是通过另外一个角度去看待下采样,由于下采样会丢失细节信息,那我们就减少下采样的层数,保持模型的高分辨率,这样细节信息丢失的就少了,但是会引发另外一个问题,就是计算量会倍增,感受野会减小,因此就有学者引入了空洞卷积的概念。我们可以看到在同样的卷积大小的情况下,我们的空洞卷积可以看到更大范围的内容。所以就能够得到更全的特征信息。 著名的Deeplab系列就应用了这个方法,这个方法在工业界的应用特别多。什么任务都可以用deeplabv3跑一下。是一个通用的基础模型。

基础设计思路3:全局上下文 [PSPNet、DeepLabV3+]

为了获取更大的感受野
在这里插入图片描述
这里的代表作包括:PSPNet里的PPmodel,PP模块和Deeplabv3+里的asPP。 这两个模块是他们提出来的,为什么影响这么大呢?这是因为在后面很多分割算法里面,都被采用到了,可见这个设计的思想是非常重要的。

上述这三个设计思路,都是在帮助模型增加信息,目前来看给大家的感觉就是信息越多越好,但是其实这是不怎么可能的,因为模型的容量毕竟有限。比如听这节课,你们能记住我说过的每一个词吗?显然是不行的,人脑的容量没有那么大。而且其实也没必要,只要记住关键的信息,就可以得到很好的效果。因此,现在的关键问题就是如何去注意到关键信息。这样注意力就很重要了,要去让模型找到注意力(重点)。

基础设计思路四:注意力 [OCRNet]

在这里插入图片描述
出了获取全局上下文信息,我们好需要获取像素点之间的关系强弱。通过进入注意力机制,来获取像素点的重要性关系。从而显示地增强来自同一物体的像素的贡献。
如果我们看右边的图,如果说,我们用非注意力机制的方法来分割,我们可以看到对于分类红色这个点,最外层蓝色的像素点对于我们的分类是毫无帮助的。因此这部分的计算是浪费的(无意义的)。注意力机制的方式,会更关注整体的车。
从左下角的图我们可以看到,卷积中蓝色的像素只关注周围部分像素的信息,而注意力关注了所有像素的信息。
其中的代表作是OCRNet,是一个基于CNN的sota模型。

前四个设计都是对于decoder的设计,都需要结合骨干网络。因此第五个基础设计就讲一下骨干网络。

基础设计思路五:骨干网络

在这里插入图片描述
骨干网络是深度学习模型的基本功,我们知道分割是像素级别的分类,因此骨干网络的分类精度会间接地影响到分类结果。因此,一般高精度的分割算法一般会采用高精度的骨干网络。
ResNet和HRNet这两个骨干网络,结合FCN就会达到比较好的效果。

举例:骨干网络就像是内功,内功好了,随便打一个简单的拳法(七伤拳)就可以打败很多高手了。

下面我们来看看上面讲的这五个基础设计思路(我又称之为提升思路),都有哪些模型采用了:
在这里插入图片描述
跳跃连接和骨干网络是最常用的基础设计模型。其中采用基础设计比较多的模型有Deeplabv3+、GSCNN(一个比较新基于CNN的模型)、OCRNet(SOTA 2021.07.13)。

在这里插入图片描述
遇到刷榜和打比赛的时候,就需要进阶设计了。

语义分割算法进阶设计

进阶分割模型设计1:多尺度注意力

在这里插入图片描述
我们之前所说的所有的模型,他们的输入只有一个,即使有多尺度方法也是在特征层面上的。而这里所说的多尺度指的是输入图片的多种尺寸,每一个尺寸的图片会过整个模型,最后再将不同输入尺寸对应的输出结果再过一个注意力模块。
这里我们做了一个实验,我们一般采用的是单尺度的OCRNet,它在验证集里面只能达到83%,如果我们用多尺度的,它的结果可以提升到87%,
在这里插入图片描述
通过注意力机制,可以选择性地选择哪一个尺度的输出结果,可以通过优势互补提升预测精度。

上面,我们讲的全都是基于CNN的分割模型,下面我们将介绍基于Transformer的分割模型。

进阶分割模型设计二:Transformer(全注意力模型)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
固定尺寸会导致在多尺度图片中会存在缺陷,例如同样的尺寸,在大尺寸图片中可能代表一个小的局部,如果在小尺寸图片中,可能代表一个整体。

由于固定patch尺寸,因此计算量是图标大小的平方。

在这里插入图片描述
两个月之后,一个新的工作,通过层次化的图片切分方式,没有固定的切分大小,并添加了偏置的窗口。一定程度上,改善了ViT的缺陷。
其中两个关键的思路就是,1patch merging 2swin transformer Block
patch merging实现了CNN里面的一个下采样的机制
Swin transformer Block实现了attention的机制
在这里插入图片描述
在这里插入图片描述

好文推荐:注意力机制、Transformer、ViT的区别与联系

CVPR2021冠军方案解读

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
增加数据量的常规操作:数据增强
新的打法如上图
在这里插入图片描述
在这里插入图片描述
基于CNN模型(OCRNET)的basenet实验。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

百度全新Transformer

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-11-05 00:28:48  更:2022-11-05 00:33:54 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 20:16:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码