IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> MFNet——向具有多光谱场景的自动驾驶汽车的实时语义分割 -> 正文阅读

[人工智能]MFNet——向具有多光谱场景的自动驾驶汽车的实时语义分割

Overview

Title:MFNet: Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes(面向具有多光谱场景的自动驾驶汽车的实时语义分割)

Time:2017

Journal:IROS

Majors:semantic segmentation

Link:


Summary

  • 致力于基于新的 RGB-Thermal 数据集提出新的自动驾驶汽车街景图像的语义分割方案。
  • 最近与语义分割相关的研究主要基于在夜间能见度差和恶劣天气条件下获取的 RGB 图像。此外,这些方法中的大多数只关注提高性能而忽略了时间消耗。上述问题促使我们提出了一种用于多光谱图像分割的新卷积神经网络架构,该架构能够在实时操作期间保持分割精度。
  • 我们通过创建一个 RGB-Thermal 数据集来对我们的方法进行基准测试,其中结合了热图像和 RGB 图像。我们表明,通过添加热红外信息可以显着提高分割精度。

Motivation

  • 自动驾驶汽车越来越重要,但是相关技术仍未成熟。专注于语义分割,目的是使自动驾驶汽车能够充分感知周围环境。
  • 一些方法采用 CNN 进行语义分割,并显着提高了最先进的准确性(如SegNet ),然而,这些方法中的大多数只专注于提高准确性而忽略了推理速度,这使得这些大型网络在自动驾驶汽车中实现是不可能的,或者至少非常具有挑战性。
  • 为自动驾驶构建的公共图像分割数据集,例如 CamVid 、Cityscapes 和 Daimler Urban Segmentation,都是基于可见光谱(或 RGB)图像。然而,由于夜间和夜间照明不足,基于可见光谱的自动驾驶系统分割系统受到限制。一辆合格的自动驾驶汽车必须足够坚固,以便在白天和夜间安全导航,即使在恶劣天气下也是如此。显然,仅使用可见光谱来构建分割系统不足以实现这种鲁棒性。

Contribution

  • 提出了一种新的CNN结构多光谱融合网络MFNet,用于使用自动驾驶车辆的多光谱图像进行实时语义分割。
  • 发布了一个新的语义分割数据集,其中包含 1569 个 RGB-Thermal 城市场景图像。还提供了交通环境中八类常见障碍物的像素级注释。
  • 证明使用热红外信息可以显着提高夜间自动驾驶语义分割系统的性能以及对温度高于周围环境的物体的分割。

Method


Model

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
(a):Mini-Inception借鉴了Inception模块的思想,选择了了卷积层与洞卷积层并行的结构以获取上下文信息。
(b):Shortcut block:,通过将编码器各阶段RGB信息和T信息级联,再与译码器上一层的结果相加完成信息融合过程。


Experiments

  • 训练集、验证集和测试集。训练集包括 50% 的白天图像和 50% 的夜间图像,而验证集和测试集分别包含 25% 的白天图像和 25% 的夜间图像。数据集根据图像采集时的时间序列分为三部分,没有手动平衡每组数据中每个类的频率。

在这里插入图片描述

  • Multi-Encoders:对比sec V-A可知,多编码器架构可以提高语义分割的准确性,,而直接在组合 RGB-Thermal 图像上训练的分割模型无法实现这种改进。
  • Mini-Inception:对比sec V-B,用两个模型与之对比,分别是将Mini-inception模块换成普通3×3卷积层和3×3膨胀系数为2的洞卷积层。实验结果表明使用3×3卷积层和3×3膨胀系数为2的洞卷积层并行的结构可以获取更丰富的信息,效果在三者中最好。比较表MFNet 和模型 C、D 的结果,我们发现使用 mini-inception 块提高了准确度。
  • Activation Function(leaky ReLU):根据表2中sec V-C,卷积层的激活函数分别使用Leaky-ReLU和ReLU以及增加通道数为两倍的对比实验,可以发现增加通道数对性能的提升很大,而且卷积层激活函数使用Leaky-ReLU的效果也要比使用ReLU的效果要好很多。在设计具有少量输入和输出通道的相对较小的 CNN 架构时,建议使用在单元不活动时提供非零梯度的激活函数可以提高性能。
  • Shortcut and Indexed Unpooling:对比sec V-D是否使用Shortcut和Indexed Unpooling以及增加通道数为两倍的对比实验,实验结果再次验证了增加通道数对MFNet性能的提升,同时还验证了本文的Shortcut策略和Unpooling策略的有效性。
  • 1×1 Convolution: 对比 sec V-E,实验发现,在语义分割网络中,使用1×1的卷积层来“压缩”卷积层的通道数会对准确率产生显著的负面影响(压缩通道导致信息丢失)。

Conclusions

  • 提出了一种新的 CNN 架构,用于对自动驾驶汽车的 RGB 热图像进行语义分割。
  • 还引入了具有像素级注释的新多光谱数据集。我们使用 NVIDIA Geforce Titan X GPU 来证明语义分割网络可以很小且足够快以实现实时性能55 图像/秒。
  • 同时,我们的方法被证明可以提供与 SegNet等最先进的分割方法相似或更高的准确度。
  • 我们设计了两个编码器分别处理 RGB 和热图像,并显着提高了准确度。我们还提出了一种采用 mini-inception 块形式的扩张卷积的新方法,提高了准确度,但无需增加时间复杂度和参数个数。
  • 除了全局特征外,我们还利用网络较低层的局部特征通过捷径来锐化预测的类别边界。
  • 我们发现,对于网络中卷积层中相对较少的通道,我们建议使用在未激活单元时提供非零梯度的激活函数,例如leaky-ReLU,与使用 ReLU 相比,可以显着提高性能。

Evaluation

  • 类平均精度Average Class Accuracy(class avg):
    classAvg. ? = 1 n ∑ i = 1 n ( P i i / ∑ j = 1 n P i j ) \operatorname{classAvg.}=\frac{1}{n} \sum_{i=1}^{n}\left(P_{i i} / \sum_{j=1}^{n} P_{i j}\right) classAvg.=n1?i=1n?(Pii?/j=1n?Pij?)
  • 平均交并比Mean Intersection of Union(mIoU):
    m I o U = 1 n ? 1 ∑ i = 2 n ( P i i / ( ∑ j = 2 n ( P i j + P j i ) ? P i i ) ) m I o U=\frac{1}{n-1} \sum_{i=2}^{n}\left(P_{i i} /\left(\sum_{j=2}^{n}\left(P_{i j}+P_{j i}\right)-P_{i i}\right)\right) mIoU=n?11?i=2n?(Pii?/(j=2n?(Pij?+Pji?)?Pii?))

Notes

我们的目标是设计一个具有实时性能的模型,并为多光谱输入图像提供令人满意的精度。设计目标包括:
? Ef?ciency效率。我们针对自动驾驶汽车应用的主要目标之一是实时性能。
? Accuracy准确性。我们旨在将我们的方法的准确性与 SegNet [8] 的准确性进行比较。 SegNet 是最近最先进的图像分割方法,具有很高的推理速度。我们的目标是提供等于或高于 SegNet 的准确度并实现实时性能。
? Robustness稳健性。与仅使用 RGB 图像相比,我们考虑使用可见光和热光谱图像能够提高语义分割的准确性,尤其是在夜间。我们的目标不是最大限度地提高准确性,而是在准确性和推理速度之间取得良好的平衡。

  • FuseNet:本文参考了结构
  • ENet :本文指出ENet为当时最快的语义分割网络架构。
  • SegNet :本文指出当时速度快且精度最好。
  • MFNet中卷积层的通道数设置为相对较小的数量以提高网络速度,MFNet中的每个卷积层后面都进行了批量归一化——S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in ICML, 2015.
  • subsampling operation?
  • 在推理过程中,使用获得的输出对像素进行独立分类,而无需使用 softmax 操作来减少推理时间。虽然 softmax 提供了更可接受的数学解释,但它实际上对于预测来说是不必要的。

References

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-30 00:52:59  更:2022-09-30 00:56:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 3:32:18-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计