| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> A Review on Deep Learning Techniques Applied to Semantic Segmentation -> 正文阅读 |
|
[人工智能]A Review on Deep Learning Techniques Applied to Semantic Segmentation |
1. 研究问题本文对基于深度学习的语义分割算法进行综述,主要贡献如下:
2. 术语和背景概念场景理解是一个从粗到精的任务:分类、检测或定位、语义分割、实例分割。如下图所示。 2.1 常见的深度网络架构2.1.1 AlexNetILSVRC-2012, TOP-5 test accuracy of 84.6% 2.1.2 VGGILSVRC-2013, TOP-5 test accuracy of 92.7% 2.1.3 GoogLeNetILSVRC-2014, TOP-5 test accuracy of 93.3% 2.1.4 ResNetILSVRC-2016, TOP-5 test accuracy of 96.4% 2.1.5 ReNet2.2 迁移学习通过继续训练过程来微调预训练网络的权重是主要的迁移学习场景之一。 经研究证明,预训练权重总比随机初始化的权重要好。要注意的是,迁移学习一般重用已经存在的架构,而且微调一般是微调较高层,且学习率要设置的小一些。 2.3 数据预处理和增强数据增强通常用于扩大数据集,防止过拟合并且提供正则化。常见的数据增强方法有:平移、旋转、扭曲、缩放、颜色空间转换、裁剪等。 3. 数据集和挑战文章列举了2D(灰度或RGB)数据集、2.5D(RGB-D)数据集和体积(3D)数据集。 3.1 2D 数据集
3.2 2.5D 数据集3.3 3D 数据集4. 方法
下面给出本文综述的一些代表性论文。
4.1 解码器变体除了FCN架构之外,还出现了编码器-解码器的架构,代表的是
4.2 整合上下文信息整合上下文信息可以解决局部模糊性,因此我们需要平衡局部信息和全局信息。 可以采取许多方法让 CNN 了解全局信息:使用条件随机场 (CRF)、空洞卷积、多尺度聚合或者将上下文建模推迟到另一种深度网络,例如 RNN。 4.2.1 条件随机场(CRF)我们之前提到,由于CNN固有的
下图显示了这种基于 CRF 的后处理对 DeepLab 模型生成的
Zheng等人提出 4.2.2 空洞卷积空洞卷积用来扩大感受野,但不增加额外的参数量,另外,还能避免过度的池化下采样导致的信息损失。我们普通的卷积就是
4.2.3 多尺度预测由于CNN中的每个参数都会影响所生成的特征图的尺度,这就说明网络隐式的学习检测特定尺度的特征,因此如果使用单尺度网络会导致其难以泛化到不同尺度的网络。因此我们使用多尺度网络。 Raj等人提出 Roy等人提出由4个多尺度网络组成的CNN。每个网络都是Eigen等人提出的
4.2.4 特征融合特征融合也是一种增加上下文的方法。主要有两种架构:
4.2.5 循环神经网络通过将像素级信息和局部信息联系在一起,RNN 能够成功地对全局上下文进行建模并改进语义分割。然而,一个重要的问题是图像中缺乏自然的顺序结构,以及标准 vanilla RNN 架构的重点在一维输入上。 基于用于图像分类的 ReNet,Visin 等人提出了一种称为
4.3 实例分割实例分割被认为是语义分割之后的下一步,它的主要目的是表示将同一类的对象拆分为不同的实例。实例标记为我们提供了额外的信息,用于推理遮挡情况,还计算属于同一类的元素的数量,以及检测机器人任务中用于抓取的特定对象,以及许多其他应用。 由于博主暂时不研究实例分割,因此不做详细介绍。。。 4.4 RGB-D 数据前面都是使用光度数据进行语义分割。随着RGB-D相机的低成本化,目前基于RGB-D数据的语义分割也获得较多关注。由于深度信息隐藏着丰富的结构化信息,因此加入深度信息可以提高语义分割的精度。 将深度图像与专注于光度数据的方法一起使用并不简单,深度数据需要在每个像素处使用三个通道进行编码,就好像它是 RGB 图像一样。 具体方法不做介绍。。。 4.5 3D 数据3D 几何数据(如点云或多边形网格)提供了丰富的空间信息,直观感觉可以用于分割。CNN是被设计用于处理结构化数据的,而 3D 数据是非结构化数据。 大多数研究人员已经采用 3D 体素网格或投影来将非结构化和无序的点云或网格转换为常规表示,然后再将它们输入网络,然后他们将标签映射回点云。如下图所示。
出于这个原因,各种研究人员都将精力集中在创建能够直接使用非结构化 3D 点集或网格的深度架构上。
PointNet 是一种深度网络架构,由于它基于全连接层而不是卷积层这一事实而脱颖而出。该架构具有两个子网络:一个用于分类,另一个用于分割。分类子网络采用点云并应用一组变换和多层感知器(MLP) 来生成特征,然后使用最大池化聚合以生成描述原始输入云的全局特征。该全局特征由另一个 MLP 分类,以生成每个类的输出分数。分割子网络将全局特征与分类网络提取的每点特征连接起来,并应用另外两个 MLP 来生成特征并为每个点生成输出分数。 4.6 视频序列当处理视频序列语义分割的时候,直观上我们可以直接使用前面的语义分割方法进行frame-by-frame的分割。但是,这样会导致巨大的计算代价。我们来考虑一下,我们忽略了视频中所隐藏的时间连续性,它可能会提高分割精度并且减小运行时间。 最杰出的工作是
5. 讨论本节定量分析分割算法,首先,我们将从 5.1 评估指标5.1.1 执行时间速度或运行时间是一个非常有价值的指标,因为绝大多数系统必须满足关于它们可以在推理过程中花费多少时间的硬性要求。但是执行时间通常受到硬件设备的影响。所以这个指标不是特别重要,只是提供给研究人员一个参考的意义,说基于既定设备,使用该算法能不能达到所需的运行速度。 5.1.2 内存占用内存使用是分割方法的另一个重要因素。尽管可以说它比执行时间限制更少——扩展内存容量通常是可行的。但它也可能是一个限制因素。考虑到与运行时相同的实现相关方面,记录方法的 5.1.3 准确性已经提出了许多评估标准,并经常用于评估任何一种语义分割技术的准确性。这些指标通常是像素精度和 IoU 的变体。 为了便于解释,我们注释以下符号:我们假设总共有 k+1 个类(从
L
0
L_0
L0? 到
L
k
L_k
Lk?,包括一个空类或背景),并且
p
i
j
p_{ij}
pij? 描述为
下面列举语义分割使用的准确性评价指标:
5.2 结果5.2.1 RGB
5.2.2 2.5D5.2.3 3D5.2.4 序列5.3 总结DeepLab对于RGB图像的分割是最好的,最稳固的。 5.4 未来研究方向6. 结论参考1、图像语义分割综述 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/10 2:08:11- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |