Overview
Title:MFNet: Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes(面向具有多光谱场景的自动驾驶汽车的实时语义分割)
Time:2017
Journal:IROS
Majors:semantic segmentation
Link:
Summary
- 致力于基于新的 RGB-Thermal 数据集提出新的自动驾驶汽车街景图像的语义分割方案。
- 最近与语义分割相关的研究主要基于在夜间能见度差和恶劣天气条件下获取的 RGB 图像。此外,这些方法中的大多数只关注提高性能而忽略了时间消耗。上述问题促使我们提出了一种用于多光谱图像分割的新卷积神经网络架构,该架构能够在实时操作期间保持分割精度。
- 我们通过创建一个 RGB-Thermal 数据集来对我们的方法进行基准测试,其中结合了热图像和 RGB 图像。我们表明,通过添加热红外信息可以显着提高分割精度。
Motivation
- 自动驾驶汽车越来越重要,但是相关技术仍未成熟。专注于语义分割,目的是使自动驾驶汽车能够充分感知周围环境。
- 一些方法采用 CNN 进行语义分割,并显着提高了最先进的准确性(如SegNet ),然而,这些方法中的大多数只专注于提高准确性而忽略了推理速度,这使得这些大型网络在自动驾驶汽车中实现是不可能的,或者至少非常具有挑战性。
- 为自动驾驶构建的公共图像分割数据集,例如 CamVid 、Cityscapes 和 Daimler Urban Segmentation,都是基于可见光谱(或 RGB)图像。然而,由于夜间和夜间照明不足,基于可见光谱的自动驾驶系统分割系统受到限制。一辆合格的自动驾驶汽车必须足够坚固,以便在白天和夜间安全导航,即使在恶劣天气下也是如此。显然,仅使用可见光谱来构建分割系统不足以实现这种鲁棒性。
Contribution
- 提出了一种新的CNN结构多光谱融合网络MFNet,用于使用自动驾驶车辆的多光谱图像进行实时语义分割。
- 发布了一个新的语义分割数据集,其中包含 1569 个 RGB-Thermal 城市场景图像。还提供了交通环境中八类常见障碍物的像素级注释。
- 证明使用热红外信息可以显着提高夜间自动驾驶语义分割系统的性能以及对温度高于周围环境的物体的分割。
Method
Model
(a):Mini-Inception借鉴了Inception模块的思想,选择了了卷积层与洞卷积层并行的结构以获取上下文信息。 (b):Shortcut block:,通过将编码器各阶段RGB信息和T信息级联,再与译码器上一层的结果相加完成信息融合过程。
Experiments
- 训练集、验证集和测试集。训练集包括 50% 的白天图像和 50% 的夜间图像,而验证集和测试集分别包含 25% 的白天图像和 25% 的夜间图像。数据集根据图像采集时的时间序列分为三部分,没有手动平衡每组数据中每个类的频率。
- Multi-Encoders:对比sec V-A可知,多编码器架构可以提高语义分割的准确性,,而直接在组合 RGB-Thermal 图像上训练的分割模型无法实现这种改进。
- Mini-Inception:对比sec V-B,用两个模型与之对比,分别是将Mini-inception模块换成普通3×3卷积层和3×3膨胀系数为2的洞卷积层。实验结果表明使用3×3卷积层和3×3膨胀系数为2的洞卷积层并行的结构可以获取更丰富的信息,效果在三者中最好。比较表MFNet 和模型 C、D 的结果,我们发现使用 mini-inception 块提高了准确度。
- Activation Function(leaky ReLU):根据表2中sec V-C,卷积层的激活函数分别使用Leaky-ReLU和ReLU以及增加通道数为两倍的对比实验,可以发现增加通道数对性能的提升很大,而且卷积层激活函数使用Leaky-ReLU的效果也要比使用ReLU的效果要好很多。在设计具有少量输入和输出通道的相对较小的 CNN 架构时,建议使用在单元不活动时提供非零梯度的激活函数可以提高性能。
- Shortcut and Indexed Unpooling:对比sec V-D是否使用Shortcut和Indexed Unpooling以及增加通道数为两倍的对比实验,实验结果再次验证了增加通道数对MFNet性能的提升,同时还验证了本文的Shortcut策略和Unpooling策略的有效性。
- 1×1 Convolution: 对比 sec V-E,实验发现,在语义分割网络中,使用1×1的卷积层来“压缩”卷积层的通道数会对准确率产生显著的负面影响(压缩通道导致信息丢失)。
Conclusions
- 提出了一种新的 CNN 架构,用于对自动驾驶汽车的 RGB 热图像进行语义分割。
- 还引入了具有像素级注释的新多光谱数据集。我们使用 NVIDIA Geforce Titan X GPU 来证明语义分割网络可以很小且足够快以实现实时性能55 图像/秒。
- 同时,我们的方法被证明可以提供与 SegNet等最先进的分割方法相似或更高的准确度。
- 我们设计了两个编码器分别处理 RGB 和热图像,并显着提高了准确度。我们还提出了一种采用 mini-inception 块形式的扩张卷积的新方法,提高了准确度,但无需增加时间复杂度和参数个数。
- 除了全局特征外,我们还利用网络较低层的局部特征通过捷径来锐化预测的类别边界。
- 我们发现,对于网络中卷积层中相对较少的通道,我们建议使用在未激活单元时提供非零梯度的激活函数,例如leaky-ReLU,与使用 ReLU 相比,可以显着提高性能。
Evaluation
- 类平均精度Average Class Accuracy(class avg):
classAvg.
?
=
1
n
∑
i
=
1
n
(
P
i
i
/
∑
j
=
1
n
P
i
j
)
\operatorname{classAvg.}=\frac{1}{n} \sum_{i=1}^{n}\left(P_{i i} / \sum_{j=1}^{n} P_{i j}\right)
classAvg.=n1?i=1∑n?(Pii?/j=1∑n?Pij?) - 平均交并比Mean Intersection of Union(mIoU):
m
I
o
U
=
1
n
?
1
∑
i
=
2
n
(
P
i
i
/
(
∑
j
=
2
n
(
P
i
j
+
P
j
i
)
?
P
i
i
)
)
m I o U=\frac{1}{n-1} \sum_{i=2}^{n}\left(P_{i i} /\left(\sum_{j=2}^{n}\left(P_{i j}+P_{j i}\right)-P_{i i}\right)\right)
mIoU=n?11?i=2∑n?(Pii?/(j=2∑n?(Pij?+Pji?)?Pii?))
Notes
我们的目标是设计一个具有实时性能的模型,并为多光谱输入图像提供令人满意的精度。设计目标包括: ? Ef?ciency效率。我们针对自动驾驶汽车应用的主要目标之一是实时性能。 ? Accuracy准确性。我们旨在将我们的方法的准确性与 SegNet [8] 的准确性进行比较。 SegNet 是最近最先进的图像分割方法,具有很高的推理速度。我们的目标是提供等于或高于 SegNet 的准确度并实现实时性能。 ? Robustness稳健性。与仅使用 RGB 图像相比,我们考虑使用可见光和热光谱图像能够提高语义分割的准确性,尤其是在夜间。我们的目标不是最大限度地提高准确性,而是在准确性和推理速度之间取得良好的平衡。
- FuseNet:本文参考了结构
- ENet :本文指出ENet为当时最快的语义分割网络架构。
- SegNet :本文指出当时速度快且精度最好。
- MFNet中卷积层的通道数设置为相对较小的数量以提高网络速度,MFNet中的每个卷积层后面都进行了批量归一化——S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in ICML, 2015.
- subsampling operation?
- 在推理过程中,使用获得的输出对像素进行独立分类,而无需使用 softmax 操作来减少推理时间。虽然 softmax 提供了更可接受的数学解释,但它实际上对于预测来说是不必要的。
References
|