开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation -> 正文阅读

[人工智能]RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation

RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation

RDFNet：用于室内语义分割的RGB-D多级残差特征融合

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8237795&tag=1
代码：https://github.com/SeongjinPark/RDFNet
文章介绍：https://blog.csdn.net/u012113559/article/details/81363756

摘要

??在使用RGB-D数据进行多类室内语义分割时，已经证明将深度特征纳入RGB特征有助于提高分割的准确性。然而，以前的研究并没有充分挖掘多模态特征融合的潜力，例如，简单地将RGB和深度特征连接起来，或者将RGB和深度分数图平均化。为了学习多模态特征的最佳融合，本文提出了一个新颖的网络，将残差学习的核心思想扩展到RGB-D语义分割中。我们的网络通过包括多模态特征融合块和多层次特征细化块，有效地捕捉了多层次的RGB-D CNN特征。特征融合块学习剩余的RGB和深度特征以及它们的组合，以充分利用RGB和深度数据的互补特性。特征细化块学习来自多个层次的融合特征的组合，以实现高分辨率的预测。我们的网络可以通过充分利用跳过连接，从每一种模式中有效地训练辨别性的多层次特征，从头到尾。我们的综合实验表明，在两个具有挑战性的RGB-D室内数据集NYUDv2和SUN RGB-D上，所提出的架构达到了最先进的准确性。

1. 引言

??语义分割将所有的像素分配到不同的语义类别，是视觉场景理解的一项基本任务。在过去，人们对基于条件随机场（CRF）的语义分割进行了广泛的研究，使用传统的手工制作的视觉特征[34, 23, 41]。最近，深度卷积神经网络（DCNNs）在图像分类任务中取得了巨大成功[22, 43, 36, 14]。在使用DCNN进行图像识别的成功基础上，许多语义分割方法也采用了DCNN，将其扩展到完全卷积的像素级分类[30, 4, 42]。随后的研究[45, 29, 1, 3, 28]将CRF框架纳入DCNN，进一步提高了准确率。然而，由于复杂而多样的物体配置和严重的遮挡，室内语义分割仍然是最具挑战性的问题之一。

??随着商业RGB-D传感器的出现，如微软Kinect[44]，已经被一致证明，利用从深度信息中提取的特征有助于减少识别物体的不确定性[32, 10, 20, 35, 6, 5, 11, 7, 25, 39, 13] 。深度特征可以描述三维几何信息，而这些信息在仅有的RGB特征中可能会被忽略。为了从RGB和深度数据中提取有用的特征，开发一种融合两种模式的有效方法至关重要。已经有许多尝试以不同的方式利用深度信息进行语义分割。

??以前大多数方法[32, 10, 20, 35, 6]设计了手工制作的深度特征并构建了各种模型来对每个区域或像素进行分类。相比之下，最近的方法[5, 11, 7, 25, 39, 13]采用了DCNN，它成功地从低级基元中学习了信息量大的RGB特征，用于高级语义。由于RGB-D语义分割的主要问题是如何有效地提取和融合深度特征和颜色特征，已经提出了各种方法来利用DCNN的能力来整合深度信息。这些方法包括连接输入的RGB和D通道，融合从每种模式计算出来的分数图，提取不同模式的共同和特定的特征，等等。虽然以前的方法取得了有意义的结果，但一直缺乏充分利用最近成功的CNN架构的研究，该架构使用skip-connections。

??在RGB语义分割的案例中，Lin等人[26]最近通过迭代融合和提炼，在利用不同分辨率的多级RGB特征方面取得了巨大成功。他们设计了一个名为RefineNet的网络，利用带有skipconnection[14, 15]的残差学习，在训练中毫不费力地进行梯度反向传播。RefineNet中的多级特征是通过短距离和长距离的残差连接的，因此可以有效地训练和合并成一个高分辨率的特征图。

图1. 拟议的用于RGB-D语义分割的RDFNet示意图。该网络首先通过一个称为MMFNet的块来融合多模式特征，并通过一系列的RefineNet块来完善融合后的特征。

??受这项工作的启发，我们提出了一个新颖的RGB-D融合网络（RDFNet），将残差学习的核心思想扩展到RGB-D语义分割中。我们扩展了RefineNet，通过残差特征融合有效地提取和融合了RGB和深度特征。我们的网络由两个特征融合块组成：多模式特征融合（MMF）块和多层次特征细化（Refine）块（图1）。MMF块对于利用RGB和深度特征的不同模式至关重要。该模块通过模仿RefineNet模块构建，但有不同的输入；输入是由深度残差网络[14]计算的多层次RGB和深度特征。然后，它通过残差卷积单元和特征适应卷积融合不同的模式特征，然后再进行可选的残差池化。MMF块自适应地训练残差特征，以有效地融合不同模态的互补特征，同时学习每个模态特征的相对重要性。随后，该模块由精化模块跟进，进一步处理融合后的特征，进行高分辨率的语义分割。在这个架构中，辨别性的多级RGB和深度特征可以被有效地训练和融合，同时保留了skipconnection的关键优势，即所有梯度通过残余连接有效地向后流动到ResNet输入特征。

??我们的主要贡献可以概括为以下几点。

我们提出了一个网络，通过将残差学习的核心思想扩展到RGBD语义分割，在非常深的网络中有效地提取和融合多级RGB-D特征。
我们的多模式特征融合块通过充分利用具有跳过连接的残差学习，在单个GPU上实现了高效的端到端辨别性RGB-D特征的训练。
我们表明，我们用于RGB-D语义分割的网络优于现有的方法，并在两个公开的RGB-D数据集–NYUDv2和SUN RGB-D上实现了最先进的性能。

2. 相关工作

??自从使用DCNN[22, 43, 36, 14]进行图像分类任务取得巨大进展以来，最近的语义分割方法都采用了DCNN。Long等人[30]提出了一个完全卷积网络（FCN），通过卷积化将DCNN图像分类扩展到密集的像素级分类。

??基于FCN的方法的主要局限性是由于多次池化操作导致的低分辨率预测。为了解决这个限制，已经有了各种方法。一种方法[42，4]采用了空洞卷积（atrous convolutions），也被称为扩张卷积（dilated convolution），它支持感受野的指数扩张而不损失分辨率。Chen等人[4]另外还应用了密集的CRF方法[21]来实现详细的最终预测。一些后续研究[45, 29, 1, 3, 28]提出了复杂的方法，将CRF框架结合到DCNNs。另一种方法[31，2，19]从低分辨率特征中学习了多个去卷积层，在恢复详细边界的同时对粗略的特征图进行上样。

??另一种方法[30, 12, 2, 33, 17, 26]利用中间层的特征来实现高分辨率的预测。Long等人[30]设计了一个跳过结构，并合并了从多层次特征计算出来的得分图，以获得最终的预测结果。Hariharan等人[12]通过堆叠网络中部分或全部层的特征，为每个位置构建了一个称为超柱的特征向量。一些方法[2, 33, 17]在使用去卷积的特征上采样程序中应用了跳过连接。特别是Lin等人[26]最近通过设计一个名为RefineNet的网络实现了较大的改进，该网络通过残余连接采用低层特征来迭代改进高层次的特征。该网络有效地传达了低级特征以及语义高级特征，并且可以有效地进行端到端训练。我们的RGB-D网络修订了这一最先进的架构，并采取了同样的优势。

??对于室内语义分割，已经研究了多种利用深度信息的方法。以前，大多数方法[32, 10, 20, 35, 6]计算了专门为捕捉深度特征和颜色特征而设计的手工制作的特征。然后，他们构建了一个模型，根据这些特征对每个区域进行分类，如超级像素。

图2. 用于RGB-D语义分割的不同现有架构。(a) 早期融合，(b) 晚期融合，(c ) [39]提出的架构，(d) [13]提出的架构，其中’C’、‘T’和’+'分别代表串联、转置和元素相加的结果。

??相比之下，最近的方法[5, 11, 7, 25, 39, 13]通常采用DCNN，自动训练捕捉不同层次的表征的特征。Couprie等人[5]将多尺度RGB CNN架构[8]扩展到RGBD情况，只需将输入的颜色和深度通道连接起来，即早期融合（图2(a)）。Long等人[30]另外报告了由每个RGB和深度模式做出的两个预测的融合结果，即后期融合（图2(b)），以及早期融合的结果。Gupta等人[11]对Girshick等人[9]介绍的R-CNN系统进行了概括，以利用深度信息。为此，他们在每个像素上用三个通道（称为HHA）对深度图像进行编码：水平差异、离地高度和与重力的角度。Li等人[25]通过双向的垂直和水平LSTM层[38]，从RGB和深度特征中捕获并融合了背景信息。他们使用了相当简单的架构，尤其是深度特征，并通过简单的特征串联，部分地只利用了RGB中间特征。

??也有一些编码器-解码器架构[39, 13]类似于基于RGB的解卷积方法。Wang等人[39]提出了一个用于多模态去卷积的结构（图2(c））。它包含额外的特征转换网络，通过发现共同的和特定模式的特征来关联两种模式。它没有利用两种模态的任何信息性中间特征，而是在网络的末端采用两种模态的简单分数融合进行最终预测。训练程序由两个阶段组成，而不是端到端。Hazirbas等人[13]提出了一种利用中间深度特征的方法（图2(d)）。然而，由于他们只在编码器部分简单地将中间的RGB和深度特征相加，它没有充分地利用有效的中级RGB-D特征，报告的准确性比最先进的纯RGB CNN架构[27]差。

??在本文中，我们提出了一个能同时有效利用多层次RGB和深度特征的网络。我们的网络经过训练，通过带有跳过连接的残差学习获得两种互补模式特征的最佳融合，并迭代完善融合后的特征。带有跳过连接的多路径残差特征融合允许后向梯度轻松传播到RGB和深度层。通过这种方式，该网络从头到尾地训练应该从低到高融合的RGB-D特征的判别能力。

3. 多级残余特征融合

??利用多级特征对于高分辨率的密集预测非常重要。现有的RGB-D语义分割方法不能有效地提取或融合两种模式下的这些特征。我们提出了一个利用多级RGB-D特征的网络，并通过带有跳过连接的残差学习有效地融合了不同模态的特征。

??在本节中，我们首先回顾了最近提出的RefineNet架构[26]，该架构通过采用残差连接在RGB语义分割中取得了巨大的成功。然后，我们描述了我们的网络，它扩展了RefineNet，有效地训练了提取和融合多层次的RGB和深度特征的方法，用于室内语义分割。

3.1. 对RefineNet的回顾

图3. 由[26]提出的网络的构建模块。左图：用于语义分割的网络架构。右图：RefineNet模块的详细图示。

??最近ResNet[14, 15]在图像识别上表现出了出色的性能。将ResNet用于语义分割的最简单方法是用密集预测层代替单标签预测层。然而，它输出的预测结果在每个空间维度上比原始图像小32倍。为了解决这一局限性，RefineNet通过子构建块，即RefineNet（图3），将低层次的特征纳入其中，反复完善高层次的特征。

图4. RefineNet中各子模块的细节。

??RefineNet将每个多级ResNet特征通过跳过连接和之前提炼的特征作为输入。然后，这些特征通过一系列的子构件进行细化和融合：残差卷积单元、多分辨率融合和链式残差池（图4）；残差卷积单元（RCU）是一个自适应卷积集，对预训练的ResNet权重进行微调，用于语义分割。多分辨率融合块将多路径输入融合到一个更高分辨率的特征图中。该块中的一个卷积是用于输入适应，它与特征通道的数量相匹配，并为求和而对特征值进行适当的重新缩放。链式残差池化（CRP）的目的是对大区域的上下文信息进行编码。该块由多个池化块链组成，每个池化块由一个最大池化层和一个卷积层组成。池化操作有一个效果，那就是分散大的激活值，这些激活值可以作为上下文特征从附近的位置获取。额外的卷积层学习了池化特征的重要性，它通过残差连接与原始特征融合。在RefineNet的末端有一个额外的RCU，对融合后的特征图进行非线性操作。

??RefineNet的核心设计理念是由身份映射与skipconnection[15]的优势激发的。残余连接使梯度通过RefineNet有效地向后传播，并促进了多路径网络的端到端训练。

3.2. 我们的RDFNet与多模式特征融合

??RGB-D语义分割的主要问题是如何有效地提取深度特征与颜色特征，并利用这些特征来完成语义分割的预期任务。第3.1节中描述的RefineNet提出了一种融合不同层次特征的通用手段，这比简单的特征连接更有效。在本文中，我们采用了类似的架构进行多模式CNN特征融合，同时保留了跳过连接的优势。

??我们的RDFNet扩展了RefineNet以处理多模态特征融合，并包括用于融合特征细化的RefineNet模块。我们网络的整体图示如图1所示。与现有的利用深度信息的网络不同（图2），我们的网络被设计为通过MMF块充分地利用多层次的深度特征，并在ResNet[14]的基础上增加了一个深度特征路径。

图5. 我们的多模态特征融合（MMF）网络图。

??我们的MMF网络的详细组成部分如图5所示。我们的特征融合块由与RefineNet中相同的组件组成，但有不同的输入，由此所需的操作也略有不同。考虑到RGB和深度ResNet的特征，我们的MMFNet首先通过一次卷积降低每个特征的维度，以促进有效的训练，同时减轻参数的爆炸。然后，每个特征会像RefineNet那样经过两个RCU和一个卷积。MMFNet中的RCU和RefineNet中的RCU的目的有一定的区别。我们的MMFNet中的RCU是为了执行一些专门用于模态融合的非线性变换。不同模态中的两个特征通过运算互补地结合起来，以提高彼此的水平，而RefineNet中的RCU主要是通过采用具有较高分辨率的低级特征来完善粗大的高级特征。在MMFNet中，随后的额外卷积对于自适应地融合不同模式的特征以及为求和而适当地调整特征值至关重要。由于在语义分割方面，颜色特征通常比深度特征具有更好的辨别能力，该区块中的求和融合主要是为了学习补充或剩余的深度特征，这可能会改善RGB特征来辨别混淆的模式。每种模式特征的重要性可以由RCU之后的卷积中的可学习参数控制。

??最后，我们进行额外的残差池化操作，以在融合的特征中纳入某些上下文信息。我们发现每个级别的MMFNet中的一个残差池已经足够了。更强的上下文信息可以通过RefineNet块进一步纳入下面的多级融合中。请注意，在我们的MMFNet中，我们跳过了原始RefineNet末端的额外RCU，因为我们的MMFNet的输出直接通过RefineNet前部的RCU。

??我们的网络结构保留了RefineNet的理念，采用了残差学习，通过所有层的跳过连接，这有利于有效的多级RGB和深度特征提取和高效的端到端训练。

3.3. 架构细节

??继Gupta等人[11]的成功经验后，我们将深度图编码为一个名为HHA[10]的三维图像，它可以直接作为预训练网络路径的输入，用于深度特征的微调。HHA表示编码地心位置的属性，强调图像中的互补不连续，这很难通过卷积网络进行训练。我们通过ResNet计算深度特征，其层数与RGB相同。

??如图1所示，我们利用4级RGB和不同分辨率的深度特征，与RefineNet类似。我们将ResNet[14]中的res5、res4、res3和res2特征作为MMFNet的输入。对于每个MMFNet，我们在1×1卷积之前包括一个用于正则化的dropout层，比例为0.5。MMFNet由ReLU非线性、3×3卷积和5×5池化层组成，跨度为1，MMFNet-4中的滤波器（通道）数量被设置为512，其他的为256。除了RefineNet-4只从res5中获取融合后的特征外，RefineNet块将融合后的特征和之前提炼的特征作为输入。RefineNet-4不进行多分辨率融合。每个RefineNet中的过滤器数量被设置为与每个MMFNet输出的过滤器数量相同。由RefineNet1得到的最终特征图要经过两个额外的RCU，然后再进行1×1卷积，以预测比率为0.5的剔除层。我们添加一个softmax损失层来计算损失。我们带有MMF块的网络可以在单个GPU上有效训练，同时充分利用极深的RGB-D网络的潜力。

4. 实验

??在本节中，我们通过综合实验来评估我们的网络。我们使用两个公开可用的RGBD数据集。NYUDv2[35]和SUN RGB-D[37]。为了进行评估，我们报告了三种类型的指标（像素准确度、平均准确度和平均交叉联合（IoU）），它们被广泛用于衡量语义分割的性能[30]。如前所述，我们使用由深度图计算的HHA编码作为我们的深度模态输入。

4.1. 训练细节

??我们使用公开的Caffe工具箱[18]和Nvidia GTX Titan X GPU实现我们的网络。

??我们采用了一般的数据增强方案：随机缩放、随机剪裁和随机翻转。我们对所有的实验都采用了测试时间多尺度评估，对所产生的预测进行平均。我们将动量和权重衰减分别设置为0.9和0.0005。我们使用了10-4的初始学习率，当损失收敛到一定范围并停止下降时，将其除以10。对于基础ResNet层，我们将学习率乘以0.1。所有不在基础ResNet中的参数都被初始化为均值为零、方差为10-2的正态分布，而偏倚则被初始化为零。

4.2. NYUDv2

??NYUDv2[35]是最流行的RGB-D数据集之一，它包含了1449对使用微软Kinect拍摄的密集标注的RGB和深度图像。该数据集还提供了由Levin等人[24]的着色方法计算的不着色的深度图，我们使用不着色的深度图进行实验。按照标准的训练/测试划分，我们使用795张训练图像和654张测试图像。我们使用[10]提供的标签对我们的网络进行40个类别的评估。

表1. NYUDv2上的语义分割准确性。我们的RDFNet优于所有现有方法。

??我们首先将我们的RDFNet与现有的使用CNN特征的室内语义分割方法进行比较。结果显示在表1中。它显示我们的网络优于所有现有的RGB-D方法以及RGB方法，表明我们的网络有效地利用了深度信息。它在像素精度、平均精度和平均IoU方面分别比仅有RGB的RefineNet的精度提高了2.4%、3.9%和3.6%。

表2. 我们的网络与预训练的剩余网络的变体在NYUDv2上的语义分割准确性。

??由于我们网络的多层次特征并不局限于特定的预训练网络，我们使用不同层数的残差网络，即Res-50、Res-101和Res-152，报告了我们网络的准确性。结果显示在表2中。它表明，网络越深，我们一般会得到更好的结果，而改进的量则会减少。值得注意的是，我们使用RGB-D数据的Res-50网络（RDF-50）的准确性高于使用RGB数据的RefineNet的Res-152网络（Refine-152[26]）。

表3. NYUDv2上的分类语义分割准确性（IoU）。

??表3显示了我们的结果与RefineNet的分类准确率的比较。我们的结果显示，通过有效地使用深度特征，在大多数类别中都有明显的改善，特别是在有明显几何区分的类别中，如桌子、柜台和梳妆台。板类报告的准确率较低，是由于数据集中包含板的图像很少。即使使用额外的深度特征，也很难提高对木板和几何差异不大的图片的分辨能力。

表4. 不同网络变体的比较。

??我们在表4中通过与其他变体的比较验证了我们的网络。这里我们使用Res-101进行实验。我们首先报告了仅有深度的网络的准确性，以表明RefineNet在从HHA编码中提取深度特征时也能正常工作，这验证了我们对深度特征部分的选择。我们训练了一个基于ResNet特征微调的RefineNet模型，只使用HHA输入。只使用HHA的RefineNet（RefineHHAonly）的准确性甚至高于同时使用RGB和HHA的FCN。这一结果表明，经过微调的ResNet可以从深度数据中提取适当的特征。

??我们还将我们的MMFNet与一个基线融合方法进行了比较。为了进行比较，我们将MMFNet替换为带有额外滤波层和一个卷积层的特征串联融合方法来降低维度。这里我们只与多级连接融合（Refine-Concat）进行比较，因为我们发现它通常比其他融合结构（早期融合、后期融合和其他变化）显示出更好的准确性。请注意，结果显示，我们的MMFNet有效地利用了多模式特征，在所有指标上都取得了更高的准确率，具体来说，分别提高了1.1%、3.0%和2.1%。这证实了改进具体来自于MMF，而不是简单地增加深度信息。

??我们还对我们的MMF网络进行了消融实验，即连续消除每个组件（表4）。没有残余池（Without RP），准确率略有下降，这意味着额外的残余池是相当可选的。我们发现进一步的池化并没有提高准确性。然而，实验表明，其他组件对有效的特征融合至关重要。如果没有卷积（Without conv）来适应性地控制融合每一种模式特征的权重，我们得到的准确率要低得多，而它只比协整融合的准确率略高。我们还报告了在RCU中没有跳过连接的准确性（没有跳过）。这里的特征直接经过非线性变换和总和融合。通过比较准确率，我们可以看到跳过连接对于多级特征的有效端到端训练的重要性。

??最后我们报告了我们的网络直接在深度数据上训练的结果，而不是HHA，以表明我们的网络可以适用于不同类型的RGBD输入。我们对深度进行了预处理，将数值大致缩放到0～255的范围内。具体来说，我们简单地使用了k/深度，类似于HHA中的差异通道，其中k是一个常数。结果（RDF-101-depth）显示出比RefineNet有一致的改进，而比我们的RDFNet与HHA（RDF-101）稍差。这表明我们的RDFNet也能有效地学习从深度数据中直接提取有意义的特征。

4.3. SUN RGB-D

??SUN RGB-D数据集[37]是为一个大规模的RGB-D基准而建立的。该数据集由10335对从四个不同的深度传感器捕获的RGB和深度图像组成，其中包含来自NYUDv2深度[35]、Berkeley B3DO[16]和SUN3D[40]的图像，以及新捕获的图像。我们使用5285张训练图像和5050张测试图像的标准分割，并对37个类别进行像素化标注，以进行评估。

表5. SUN RGB-D的语义分割准确性。我们的RDFNet达到了最先进的精度。

??表5显示，我们的网络在很大程度上超过了现有的RGB-D方法。它在所有指标上都达到了最先进的准确度，将仅有RGB的RefineNet的准确度提高了不少。对于这个数据集，深度特征的能力可能会略微减弱，因为它包含许多无效测量的坏深度图像，例如由RealSense RGB-D相机获得的图像。尽管如此，结果表明我们的网络在大规模的数据集上学习到了有效的RGB-D特征，即使没有手动剔除坏图像。

4.4. 定性结果

??我们在图6中展示了我们与RefineNet[26]相比的一些定性结果。我们通过运行公开的源代码和所提供的基于Res-101的模型来获得RefineNet的结果。我们使用RGB-D输入将结果与我们的RDF-101进行比较。比较结果说明，我们的网络有效地利用了深度特征来区分只用颜色特征可能会混淆的区域。

图6. 我们的RDFNet与RefineNet[26]的定性结果比较。每个例子从左到右分别是：图像、地面实况、RefineNet得到的结果和我们的结果。请注意，深度特征有助于区分仅用颜色特征可能会混淆的区域，例如，有类似床的图案的枕头（a），有同质图案的门（b，e），有明显几何区别的天花板（c），有垂直表面法线的柜台（d，f），低照度的柜子（g），反射其他颜色图案的镜子（a，b），地板上的地垫（h），以及桌子的顶部表面（c，i）。最后一个例子是我们的一个失败案例（j）。最好以彩色观看。

5. 结论

??我们提出了一个新颖的网络，它充分利用了带有跳过连接的残差学习，为语义分割提取有效的多模式CNN特征。残差结构有利于在单个GPU上对非常深的RGB-D CNN特征进行有效的端到端训练。我们的MMFNet表明，最近的多级特征细化架构[26]可以有效地扩展到利用不同模态的特征，同时保留了跳过连接的优势。我们的实验表明，所提出的网络优于现有的方法，对于NYUDv2和SUN RGB-D室内数据集，分别获得了最先进的平均IoUs为50.1%和47.7%。

References

[1] A. Arnab, S. Jayasumana, S. Zheng, and P . H. Torr. Higher order conditional random fields in deep neural networks. In Proc. ECCV, pages 524–540. Springer, 2016. 1, 2

[2] V . Badrinarayanan, A. Kendall, and R. Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. arXiv preprint arXiv:1511.00561, 2015. 2

[3] S. Chandra and I. Kokkinos. Fast, exact and multi-scale inference for semantic image segmentation with deep gaussian crfs. In Proc. ECCV, pages 402–418. Springer, 2016. 1, 2

[4] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Y uille. Semantic image segmentation with deep convolutional nets and fully connected crfs. arXiv preprint arXiv:1412.7062, 2014. 1, 2

[5] C. Couprie, C. Farabet, L. Najman, and Y . LeCun. Indoor semantic segmentation using depth information. arXiv preprint arXiv:1301.3572, 2013. 1, 2, 3

[6] Z. Deng, S. Todorovic, and L. Jan Latecki. Semantic segmentation of rgbd images with mutex constraints. In Proc.ICCV, pages 1733–1741, 2015. 1, 2, 3

[7] D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In Proc. ICCV, pages 2650–2658, 2015.1, 2, 3, 6

[8] C. Farabet, C. Couprie, L. Najman, and Y . LeCun. Learning hierarchical features for scene labeling. IEEE transactions on pattern analysis and machine intelligence, 35(8):1915–1929, 2013. 3

[9] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proc. CVPR, pages 580–587, 2014. 3

[10] S. Gupta, P . Arbelaez, and J. Malik. Perceptual organization and recognition of indoor scenes from rgb-d images. In Proc.CVPR, pages 564–571, 2013. 1, 2, 3, 5, 6

[11] S. Gupta, R. Girshick, P . Arbeláez, and J. Malik. Learning rich features from rgb-d images for object detection and segmentation. In Proc. ECCV, pages 345–360. Springer, 2014. 1, 2, 3, 5, 6

[12] B. Hariharan, P . Arbeláez, R. Girshick, and J. Malik. Hyper columns for object segmentation and fine-grained localization. In Proc. CVPR, pages 447–456, 2015. 2

[13] C. Hazirbas, L. Ma, C. Domokos, and D. Cremers. Fusenet:Incorporating depth into semantic segmentation via fusion based cnn architecture. In Proc. ACCV, volume 2, 2016. 1,2, 3, 7

[14] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385,2015. 1, 2, 4, 5

[15] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In Proc. ECCV, pages 630–645.Springer, 2016. 2, 4

[16] A. Janoch, S. Karayev, Y . Jia, J. T. Barron, M. Fritz,K. Saenko, and T. Darrell. A category-level 3d object dataset: Putting the kinect to work. In Consumer Depth Cameras for Computer Vision, pages
141–165. Springer, 2013. 8

[17] S. Jégou, M. Drozdzal, D. V azquez, A. Romero, and Y . Bengio. The one hundred layers tiramisu: Fully convolutional densenets for semantic segmentation. arXiv preprint arXiv:1611.09326, 2016. 2

[18] Y . Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014. 6

[19] A. Kendall, V . Badrinarayanan, and R. Cipolla. Bayesian segnet: Model uncertainty in deep convolutional encoder decoder architectures for scene understanding. arXiv preprint arXiv:1511.02680, 2015. 2, 7

[20] S. H. Khan, M. Bennamoun, F. Sohel, and R. Togneri. Geometry driven semantic labeling of indoor scenes. In Proc.ECCV, pages 679–694. Springer, 2014. 1, 2, 3

[21] V . Koltun. Efficient inference in fully connected crfs with gaussian edge potentials. In Proc. NIPS, 2011. 2

[22] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Proc. NIPS, pages 1097–1105, 2012. 1, 2

[23] L. Ladick`y, P . Sturgess, K. Alahari, C. Russell, and P . H.Torr. What, where and how many? combining object detectors and crfs. In Proc. ECCV, pages 424–437. Springer,2010. 1

[24] A. Levin, D. Lischinski, and Y . Weiss. Colorization using optimization. In ACM transactions on graphics (tog), volume 23, pages 689–694. ACM, 2004. 6

[25] Z. Li, Y . Gan, X. Liang, Y . Y u, H. Cheng, and L. Lin. Lstmcf: Unifying context modeling and fusion with lstms for rgbd scene labeling. In Proc. ECCV, pages 541–557. Springer,2016. 1, 2, 3, 7

[26] G. Lin, A. Milan, C. Shen, and I. Reid. RefineNet: Multipath refinement networks for high-resolution semantic segmentation. In CVPR, July 2017. 2, 4, 6, 7, 8

[27] G. Lin, C. Shen, A. v. d. Hengel, and I. Reid. Exploring context with deep structured models for semantic segmentation.arXiv preprint arXiv:1603.03183, 2016. 3, 6

[28] G. Lin, C. Shen, A. van den Hengel, and I. Reid. Efficient piecewise training of deep structured models for semantic segmentation. In Proc. CVPR, pages 3194–3203, 2016. 1, 2,7

[29] Z. Liu, X. Li, P . Luo, C.-C. Loy, and X. Tang. Semantic image segmentation via deep parsing network. In Proc. ICCV,pages 1377–1385, 2015. 1, 2

[30] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In Proc. CVPR, pages 3431–3440, 2015. 1, 2, 3, 6

[31] H. Noh, S. Hong, and B. Han. Learning deconvolution network for semantic segmentation. In Proc. ICCV, pages 1520–1528, 2015. 2

[32] X. Ren, L. Bo, and D. Fox. Rgb-(d) scene labeling: Features and algorithms. In Proc. CVPR, pages 2759–2766. IEEE,2012. 1, 2, 3, 7

[33] O. Ronneberger, P . Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 234–241. Springer,2015. 2

[34] C. Russell, P . Kohli, P . H. Torr, et al. Associative hierarchical crfs for object class image segmentation. In Proc. ICCV,pages 739–746. IEEE, 2009. 1

[35] N. Silberman, D. Hoiem, P . Kohli, and R. Fergus. Indoor segmentation and support inference from rgbd images. In Proc. ECCV, pages 746–760. Springer, 2012. 1, 2, 3, 6, 8

[36] K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 1, 2

[37] S. Song, S. P . Lichtenberg, and J. Xiao. Sun rgb-d: A rgb-d scene understanding benchmark suite. In Proc. CVPR, pages 567–576, 2015. 6, 7

[38] F. Visin, K. Kastner, K. Cho, M. Matteucci, A. Courville,and Y . Bengio. Renet: A recurrent neural network based alternative to convolutional networks. arXiv preprint arXiv:1505.00393, 2015. 3

[39] J. Wang, Z. Wang, D. Tao, S. See, and G. Wang. Learning common and specific features for rgb-d semantic segmentation with deconvolutional networks. In Proc. ECCV, pages 664–679. Springer, 2016. 1, 2, 3, 6

[40] J. Xiao, A. Owens, and A. Torralba. Sun3d: A database of big spaces reconstructed using sfm and object labels. In Proc. ICCV, pages 1625–1632, 2013. 8

[41] J. Yao, S. Fidler, and R. Urtasun. Describing the scene as a whole: Joint object detection, scene classification and semantic segmentation. In Proc. CVPR, pages 702–709. IEEE,2012. 1

[42] F. Y u and V . Koltun. Multi-scale context aggregation by dilated convolutions. In ICLR, 2016. 1, 2

[43] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In Proc. ECCV, pages 818–833.Springer, 2014. 1, 2

[44] Z. Zhang. Microsoft kinect sensor and its effect. IEEE multimedia, 19(2):4–10, 2012. 1

[45] S. Zheng, S. Jayasumana, B. Romera-Paredes, V . Vineet,Z. Su, D. Du, C. Huang, and P . H. Torr. Conditional random fields as recurrent neural networks. In Proc. ICCV, pages 1529–1537, 2015. 1, 2

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-09-25 23:12:38 更:2022-09-25 23:14:15

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/15 11:24:49-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码