| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation -> 正文阅读 |
|
[人工智能]RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation |
RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic SegmentationRedNet: 用于室内RGB-D语义分割的残差编码器-解码器网络 摘要??室内语义分割一直是计算机视觉中的一项困难任务。在本文中,我们提出了一个用于室内RGB-D语义分割的RGB-D残差编码器-解码器架构,名为RedNet。在RedNet中,残差模块作为基本构件被应用于编码器和解码器,并使用跳过连接来绕过编码器和解码器之间的空间特征。为了纳入场景的深度信息,我们构建了一个融合结构,它分别对RGB图像和深度图像进行推理,并将它们的特征融合在若干层上。为了有效地优化网络参数,我们提出了一个 "金字塔监督 "训练方案,在解码器的不同层上应用监督学习,以应对梯度消失的问题。实验结果表明,所提出的RedNet(ResNet-50)在SUN RGB-D基准数据集上实现了最先进的47.8%的mIoU准确性。我们的源代码将可在https://github.com/JindongJiang/RedNet。 1导言??在不久的将来,室内空间可能会成为服务机器人的主要工作场所。为了在室内空间工作,机器人应该具备视觉场景理解的能力。为此,室内场景的语义分割正在成为计算机视觉中最受欢迎的任务之一。 ??在过去的几年里,全卷积网络(FCN)类型的架构在语义分割任务上显示出巨大的潜力[27,28,1,4,38,25,39],并在许多数据集的语义分割任务中占据主导地位[11,5,34]。其中一些FCNs类型的架构专注于室内环境,并且通常利用深度信息作为RGB的补充信息来提高分割效果[27,6,14,15]。一般来说,FCNs架构可以分为两类,即编码器-解码器型架构和扩张卷积型架构。编码器-解码器架构[27,28,1,25,15]有一个下采样路径来从图像中提取语义信息,还有一个上采样路径来恢复全分辨率的语义分割图。相比之下,扩张卷积架构[4,38,39]采用了扩张卷积,使卷积网络在没有下采样的情况下指数级地扩展感受野。通过较少的甚至是零的下采样操作,扩张的架构在整个网络中保持了图像中的空间信息,因此该架构作为一个鉴别性的模型,对图像中的每个像素进行分类。另一方面,编码器-解码器架构在判别性编码器过程中丢失了空间信息,因此一些网络在生成性解码器路径中应用跳过架构来恢复空间信息。 ??尽管扩张卷积架构具有保持空间信息的优势,但它们在训练步骤中通常有较高的内存消耗。因为激活图的空间分辨率并没有随着网络的进行而降低,它需要被储存起来用于梯度计算。因此,高内存消耗使网络无法有更深的结构。这可能会导致这种方法的缺点,因为卷积网络随着结构的深入会学习到更丰富的特征,这将有利于语义信息的推理。 ??在本文中,我们提出了一种名为RedNet的新结构,它采用了编码器-解码器网络结构进行室内RGB-D语义分割。在RedNet中,残差块被用作构建模块,以避免模型退化问题[16]。这使得网络的性能可以随着结构的深入而提高。此外,我们应用融合结构将深度信息纳入网络,并使用跳过架构将空间信息从编码器绕到解码器。此外,受[35]中训练方案的启发,我们提出了金字塔监督,在解码器的不同层上应用监督学习,以实现更好的优化。RedNet的整体结构如图1所示。 ??本文的其余部分分为四个部分。在第2节中,预览了关于残差网络和室内RGB-D语义分割的文献。在第3节中详细说明了RedNet的结构和金字塔监督的思想。在第4节中,我们进行了比较实验来评估模型的效率。最后,我们在第5节中得出本文的结论。 在结束本节之前,本文的主要贡献列举如下。
2.相关工作2.1 残差网络??残差网络是由He等人在[16]中首次提出的。在他们的工作中,他们分析了模型退化的问题,随着网络深度的增加,模型退化表现为饱和,然后是精度的下降。他们认为,退化问题是一个优化问题,随着网络深度的增加,网络越来越难训练。他们认为,一个convnet的理想映射是由身份映射和残差映射组成的。因此,我们提出了一个深度残差学习框架。与其让convnet学习所需的映射,不如让它适应残差映射,并使用快捷连接将其与身份输入合并。通过这种配置,残差网络变得容易优化,并且可以享受到深度大大增加带来的精度提升。Veit等人[36]对残差网络性能的提高提出了一个补充性的解释,即残差网络通过引入输入和输出之间的短路径来避免梯度消失问题。后来,He等人[17]分析了残差网络的连接机制背后的传播公式,并提出了一种新的残差单元结构。在他们的工作中,他们将深度残差网络的深度扩展到1001层。Zagoruyko等人[40]研究了残差网络的内存消耗,并提出了一种新型的残差单元,旨在减少深度和增加深度残差网络的宽度。 ??残差学习的想法后来被采用到语义分割任务的架构中。Pohlen等人[30]提出了一个带有残差学习的全卷积网络,用于街道场景的语义分割。该网络有一个编码器-解码器的结构,并将残差模块应用于具有全分辨率残差单元(FRRUs)的跳过连接结构。Quan等人[31]提出了一个FCN架构,名为FusionNet,用于connectomics图像分割。FusionNet不是在跳过连接结构上使用残差块,而是在编码器和解码器路径的每一层与标准卷积、最大集合和卷积转置一起应用它们[28]。同样,Drozdzal等人[8]研究了跳过连接在生物医学图像分割中的重要性,表明残差模块中的 "短跳过连接 "比编码器和解码器之间的 "长跳过连接 "对生物医学图像分析更有效。Yu等人[39]结合残差网络和扩张卷积的思想,建立了一个用于语义分割的扩张残差网络。在他们的论文中,他们还研究了由扩张卷积引入的网格伪影,并开发了一种 "降维 "方法来消除这些伪影。Dai等人[7]使用ResNet-101作为基本网络,并应用多任务网络级联进行实例分割。Lin等人[25]和Lin等人[24]也使用ResNet结构作为特征提取器,并采用多路径细化网络来利用下采样过程中的信息进行全分辨率语义分割。 ??2017年,Chaurasia等人[3]提出了一个编码器-解码器架构(名为LinkNet),用于高效的语义分割。LinkNet架构使用ResNet18作为编码器,并在解码器中应用瓶颈单元进行特征上采样。在这种高效的配置下,该网络在几个乌镇街道数据集上达到了最先进的精度[5,2]。受这项工作的启发,我们提出了一种简单的编码器-解码器结构,在下采样路径和上采样路径上都应用残差单元,并采用金字塔监督来优化它。 2.2 室内RGB-D语义分割??目前,由于物体之间颜色和结构的高度相似性,以及室内环境中的非均匀光照,准确的室内语义分割仍然是一个具有挑战性的问题。因此,一些工作开始利用深度信息作为补充信息来解决这个问题。例如,Koppula等人[22]和Huang等人[18]利用深度信息来建立完整的室内场景的三维点云,并应用图形模型来捕捉RGB-D数据中物体的特征和上下文关系以进行语义标记。Gupta等人[13]提出了一个基于超级像素的架构,用于室内场景的RGB-D语义分割。他们的方法是在RGB图像上提取超级像素区域,并在RGB-D数据上提取每个超级像素的特征,然后采用随机森林(RF)和支持向量机(SVM)对每个超级像素进行分类,建立全分辨率语义图。后来,Gupta等人[14]通过引入深度信息的HHA编码和使用卷积神经网络(CNN)进行特征提取,改进了这种分割模型。在HHA编码中,深度信息被编码为三个通道,即水平差异、离地高度和重力与表面法线之间的角度。这些意味着HHA编码强调了图像中的地心不连续。 ??在几个室内RGB-D数据集[32,20,33,34]发布后,许多研究开始采用深度学习架构进行室内语义分割。Couprie等人[6]提出了一个用于室内语义分割的多尺度卷积网络。研究表明,当纳入深度信息时,对具有相似深度外观和位置的物体类别的识别会得到改善。Long等人[27]将FCNs结构应用于室内语义分割,并比较了网络的不同输入,包括三通道RGB、叠加四通道RGB-D和叠加六通道RGB-HHA。研究进一步表明,RGB-HHA的输入优于其他所有的输入形式,而RGB-D与RGB输入有相似的准确性。Hazirbas等人[15]提出了一种基于融合的编码器-解码器FCN,用于室内RGB-D语义分割。他们的工作表明,HHA编码并没有掌握比深度本身更多的信息。为了充分利用深度信息,他们应用卷积网络的两个分支分别计算RGB和深度图像,并在不同层上应用特征融合。基于相同的深度融合结构,我们以前的工作[21]提出了一个DeepLab类型的架构[4],该架构在扩张的FCN上应用深度融合,并建立一个RGB-D条件随机场(CRF)作为后处理。 ??在这项工作中,我们也将在网络的降采样部分应用深度融合结构,并应用跳过连接,将融合后的信息绕过解码器,进行全分辨率语义预测。 3 方法3.1 RedNet结构??RedNet的结构如图2所示。为了清楚地说明问题,我们用不同颜色的块来表示不同类型的层。请注意,RedNet中的每个卷积操作在relu函数之前都有一个批处理的归一化层[19],为了简化,图中省略了它。 ??图中上半部分到Layer4/Layer4_d是网络的编码器,它有两个卷积分支,即RGB分支和Depth分支。这两个编码器分支的结构可以采用[16]中提出的五种ResNet架构之一,其中我们去掉了ResNet的最后两层,即全局平均池层和全连接层。 ??模型中的RGB分支和Depth分支具有相同的网络配置,只是Depth分支上的Conv1_d的卷积核只有一个特征通道,因为Depth输入呈现为一个通道的灰色图像。编码器从两个下采样操作开始,即步长为2的7×7卷积层和步长为2的3×3最大集合层。这个最大池化层是整个架构中唯一的池化层,网络中所有其他的下采样和上采样操作都是用两行卷积和卷积的转置实现的。编码器中的以下各层是具有不同数量的残差单元的残差残差层。值得指出的是,编码器中只有第1层没有下采样单元,其他的ResLayer都有一个残差单元,对特征图进行下采样,并将特征通道增加2倍。 深度分支在Layer4_d结束,其特征被融合到5层的RGB分支。在这里,元素求和被作为特征融合方法进行。图2的下半部分,从Trans1层开始,是网络的解码器。在这里,除了Final Conv层是一个单一的2×2卷积层的转置,解码器中的其他层都是残差层。前四层,即Trans1、Trans2、Trans3和Trans4,有一个上采样残差单元,对特征图进行2倍的上采样。与编码器中的瓶颈构件不同,我们在解码器中采用标准的残差构件[16],有两个连续的3×3卷积层进行残差计算。关于上采样操作,我们提出了一个上采样残差单元,如图3(c)所示。在图3中,我们比较了ResNet-50和ResNet-34中的下采样单元,以及我们在解码器中提出的上采样单元。这里,对于
C
o
n
v
[
(
k
,
k
)
,
s
,
?
/
c
]
Conv[(k, k), s, ?/c]
Conv[(k,k),s,?/c],
(
k
,
k
)
(k, k)
(k,k)指卷积核的空间大小。参数s是卷积的跨度,c是输出特征通道的增加或减少系数。红色块表示改变输入特征图的空间大小的卷积,即下采样或上采样。例如,红色的
C
o
n
v
[
(
2
,
2
)
,
0.5
,
/
2
]
Conv[(2, 2), 0.5, /2]
Conv[(2,2),0.5,/2]表示2×2核大小的转置卷积,将特征图的宽度和高度上采样2倍,将特征通道降低2倍。 ??表1显示了使用ResNet-50作为编码器时的网络配置,这里m表示输入特征通道的数量,n表示输出特征通道的数量,lunit表示该层的残差单元数量。与下采样层相比,上采样层的残差单元顺序不同。下采样层从一个下采样残差单元开始,然后是几个残差单元,相反,上采样层从几个残差单元开始,最后是一个上采样残差单元。如表所示,ResNet-50编码器中的残差层的输出具有较大的通道尺寸,因为它使用通道扩展。因此,我们采用了图2所示的代理层,它是单一的1×1卷积层,跨度为1。它的设计是为了投射出更低的通道尺寸的特征图,使解码器有更低的内存消耗。请注意,代理层只在采用ResNet-50时存在,当编码器采用ResNet-34结构时,它们将被删除。这是因为它在残差单元上没有通道扩展。此外,在ResNet-34编码器的设置中,我们还删除了Conv1的输出和Trans4的输出之间的跳过连接,以获得更好的性能。 3.2 金字塔监督??金字塔监督训练方案通过在五个不同层上引入监督学习来缓解梯度消失问题。如图2所示,该算法除了最终输出外,还从四个上采样ResLayer的特征图中计算出四个中间输出,这些中间输出被称为侧面输出。每个侧面输出的分数图都是用1×1的核大小和跨度为1的卷积层来计算的。因此,所有的输出都有不同的空间分辨率。RedNet的最终输出是一个全分辨率的分数图,而侧面输出Out4、Out3、Out2和Out1则是下采样的。 ??例如,Out1的高度和宽度是Output的1/16。四个侧面输出和最终输出被送入softmax层和交叉熵函数以建立损失函数。 4 实验??在这一节中,我们使用SUN RGB-D室内场景理解基准套装[34],评估了以ResNet-34和ResNet50为编码器的RedNet架构。SUN RGB-D数据集是目前最大的RGB-D室内场景语义分割数据集,它有10,335张密集注释的RGB-D图像,取自20个不同的场景,规模与PASCAL VOC RGB数据集[10]相似。它还包括纽约大学深度v2数据集[33]的所有图像数据,以及来自伯克利B3DO[20]和SUN3D[37]数据集的精选图像数据。 ??为了提高深度图的质量,本文提出了一种算法,即从多个帧中估计场景的三维结构,以进行深度去噪并填补缺失的数值。RGB-D图像中的每个像素都被分配到37个类中的一个或 "未知 "类的语义标签。在实验评估中,我们使用默认的训练-测试分割数据集,其中有5285个训练/验证实例和5050个测试实例来评估我们提出的RedNet架构。 训练 SUN RGB-D数据集中的训练图像是由四种不同分辨率和视场的传感器拍摄的。在训练步骤中,我们将所有的RGB图像、深度图像和Groundtruth语义图调整为480×640的高度和宽度的空间分辨率,此外,Groundtruth图被进一步调整为四个下采样图,分辨率从240×320到30×40,以便对侧面输出进行金字塔监督。在这里,RGB图像被应用于双线性插值,而深度图像和Groundtruth地图被应用于最近邻插值。在训练过程中,输入和Groundtruths数据通过应用随机比例和裁剪进行增强,输入的RGB图像通过应用随机色调、亮度和饱和度调整进一步增强。此外,我们计算整个数据集中的RGB和Depth图像的平均值和标准偏差,以使每个输入值正常化。 ??实验中的两个网络,即RedNet(ResNet-34)和RedNet(ResNet-50),具有相同的训练策略,并且所有的超参数值都相同。我们使用PyTorch深度学习框架[29]来实现和训练该架构1。网络的编码器在ImageNet物体分类数据集[23]上进行预训练,而其他层的参数则由Xavier初始化器[12]初始化。由于数据集中每个类别的像素不平衡,我们使用[9]中提出的中值频率设置对交叉熵函数中每个类别的训练损失进行重新加权。也就是说,我们用αc=中位概率/prob?的系数对每个像素进行加权,其中c是该像素的基础类,prob?是该类的像素概率,中位概率是这些类的所有概率的中位数。该网络以动量SGD作为优化算法进行训练。所有层的初始学习率被设置为0.002,并在每100个历时中衰减0.8倍。优化器的动量被设置为0.9,并应用0.0004的权重衰减进行正则化。 ??该网络在NVIDIA GeForce GTX 1080 GPU上进行训练,批次大小为5,当损失不再减少时,我们停止训练。 评估 该网络在SUN RGB-D数据集的默认测试集上进行了评估。在5050个测试实例中,使用了三个分割任务的标准来衡量网络的性能,即像素准确度、平均准确度和交叉-联合(IoU)得分。 ??表2显示了RedNet和其他最先进的方法在SUN RGB-D测试集上的比较结果。从表中可以看出,我们提出的RedNet(ResNet-34)和RedNet(ResNet-50)架构优于大多数现有方法。这里,FuseNet-SF5[15]和DFCN-DCRF[21]网络在RedNet中使用了相同的深度融合技术进行深度整合。RefineNet-152[25]和CFN(RefineNet-152)[24]架构使用RedNet中相同的残差网络进行特征提取。请注意,这两个架构都是使用ResNet-152结构进行特征提取,而RedNet使用ResNet-50作为编码器,表现出47.8%的准确性。同样值得注意的是,RedNet(ResNet-34)网络和RedNet(ResNet-50)网络共享相同的解码器结构,对比结果显示RedNet(ResNet-50)中更深的编码器结构提供了更好的性能。 ??此外,为了证明金字塔监督训练方案能够有效地提高网络的性能,我们进行了一个实验,比较了使用和不使用金字塔监督训练的拟议RedNet架构的性能。结果如表3所示。结果显示,金字塔监督提高了网络在所有三个标准上的性能。请注意,采用金字塔监督训练方案的ResNet-34编码器RedNet的性能优于没有金字塔监督的ResNet-50编码器RedNet,这充分证明了金字塔监督的有效性。在图4中可以得到侧面输出和最终输出的测试预测结果。 5 结论??在这项工作中,我们提出了一个名为RedNet的RGB-D编码器-解码器残差网络,用于室内RGB-D语义分割。RedNet结合了残差单元中的短跳接和编码器与解码器之间的长跳接,以实现准确的语义推断。它还在编码器中应用了融合结构以纳入深度信息。此外,我们还提出了金字塔监督训练方案,在解码器上应用多层监督学习来提高编码器-解码器网络的性能。比较实验表明,所提出的带有金字塔监督的RedNet结构在SUN RGB-D数据集上取得了最先进的结果。 References
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 22:55:52- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |