IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> PointAugmenting Cross-Modal Augmentation for 3D Object Detection -> 正文阅读

[人工智能]PointAugmenting Cross-Modal Augmentation for 3D Object Detection


论文: PointAugmenting: Cross-Modal Augmentation for 3D Object Detection

摘要

先提出背景,然后方法,难点/挑战(不过这篇没在摘要里面提出挑战,应该会放到引言里面提)

  • 背景 :摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提供丰富的纹理和颜色提示,而激光雷达则专注于相对距离感应。 3D 物体检测的挑战在于有效地将 2D 相机图像与 3D LiDAR 点融合。

  • 方法:提出了一种新的跨模态 3D 对象检测算法,名为PointAugmenting。

    • 简述方法(概括方法)

      • 一方面,PointAugmenting 用预训练的 2D 检测模型提取的相应逐点 CNN 特征来装饰点云,然后在装饰点云上执行 3D 对象检测。与装饰点云的高度抽象的语义分割分数相比,来自检测网络的 CNN 特征适应对象外观变化,取得显着改善。
      • 另一方面,PointAugmenting 受益于一种新颖的跨模态数据增强算法,该算法在网络训练期间始终将虚拟对象粘贴到图像和点云中。

Introduction

paragraph1

  1. 介绍3D物体检测和激光雷达背景和挑

    1. 背景:3D 对象检测在自动驾驶的 3D 场景理解中起着至关重要的作用。现有的 3D 物体检测算法主要使用激光雷达和相机来感知环境。激光雷达以稀疏点云的形式获取深度信息,而相机以具有丰富色彩和纹理的密集强度阵列形式捕获图像。
    2. 挑战: 3D 对象检测的挑战在于图像和点云之间的错位。
    3. 解决挑战的方法在这项工作中,我们的目标是通过有效的跨模态数据融合和增强来推进 3D 对象检测。

paragraph2 -5

  1. 介绍现有方法和缺点

    1. 现有方法:三种跨模态分类:result-level fusion、proposal-level fusion和point-level fusion。

    2. 缺点:

      • result-level fusion[13, 21] 采用现成的 2D 对象检测器,因此它们的性能受到 2D 检测器上限的限制。
      • proposal-level fusion的融合方法,例如 MV3D [3] 和 AVOD [8],在区域提议级别执行融合,导致计算量很大。
      • 最近的方法 [11, 10, 29, 16, 7, 19] 试图通过将点云投影到图像平面上来获取逐点图像特征。[11,10,29] 在与 LiDAR BEV 特征融合之前构建鸟瞰 (BEV) 相机特征以减轻视点不一致。跨视图变换很容易导致特征模糊。
    3. (反转)相反,MVX-Net [16]、EPNet [7] 和 PointPainting [19] 直接利用逐点对应来使用 CNN 特征或图像分割的分割分数来增强每个 LiDAR 点。

    4. 在分割分数的帮助下,PointPainting 已成为一种流行的融合基线,在大规模数据集上比仅使用 LiDAR 的检测器获得了巨大的收益。

    5. **通过实验探索更有效的改进方式(前面夸了Point Painting很好,但是还有不足,因为还存在挑战、可改进的地方)**图像的高维CNN特征比分割分数有更丰富的的外观线索和更大的感受野。

    6. 改进: 对发现的高维CNN特点进行改进,把VGG16换成了CenterNet的DLA34层作为输出,是为了强调细粒度的细节以加强点云之间的区别。

    7. **再改进:**改善LiDAR和相机之间的模态差距,采用跨模态的后期融合机制。(并展现了融合后的效果)

    8. (训练中存在的瓶颈):跨模态的数据增强

      1. 先介绍现有的数据增强方案GT-Paste
      2. 但这种增强方案会破坏LiDAR点和相机图像之间的一致性
      3. 从而解决这个问题 :首先遵循观察者的视角,根据几何一致规则过滤被遮挡的 LiDAR 点。然后抓住当前场景中的所有对象,并将它们对应的补丁以远近顺序粘贴到图像上

paragraph6

贡献总结

  1. 我们从 2D 对象检测网络中探索有效的 CNN 特征作为图像表示,以与 LiDAR 点融合以进行 3D 对象检测。
  2. 考虑到相机和激光雷达之间的模态一致性,我们提出了一种简单而有效的跨模态数据增强方法来训练 3D 对象检测器。
  3. 我们在大规模 nuScenes 和 Waymo 数据集上广泛验证了跨模式融合和数据增强的有效性。提出的 3D 检测器 PointAugmenting 在迄今为止的 nuScenes 排行榜上取得了新的最新成果。

相关工作

针对类型概括相关工作特点和其缺点

  • LIDAR-Based 3D Detection

    • 基于网络
    • 基于点
  • Fusion-Based 3D Detection:在我们的工作中,我们探索了一种更好的图像表示和融合机制,以促进逐点跨模态数据融合。

  • 数据增强: 受 Cutmix 的启发,我们跨模态 3D 增强的意图是同时将对象点和图像块粘贴到场景中,同时保持传感器之间的一致性。

PointAugmenting

先用第一段介绍该论文的方法大致结构,然后开始分点详细介绍方法。

Cross-Modal Fusion

Point-wise Feature Fetching 逐点特征提取

最近检测器 PointPainting [19] 的成功启发我们用相机图像的语义来装饰 LiDAR 点。(这里还是大胆的表明了,是引用的别人的方法,并不是自己创新)最后使用了2D对象检测而不是语义分割训练的现成网络

  • 提出了为什么才用这个方法的三个原因:

    • 2D与3D互补,专注于对象的不同粒度级别,彼此受益。
    • 2D检测标签更容易获得
    • 检测网络比分割网络友好
  • 然后再总结自己方法的使用方式。

3D Detection

这里就开始简述该论文的3D检测方法了

Cross-modal data Augment

这里的数据增强也是运用的别人的方法

  • 受最近的图像增强方法 Cutmix [31] 的启发,我们尝试在将虚拟对象的 LiDAR 点粘贴到当前 3D 场景中时同时将图像补丁附加到图像。

主要挑战:在于保持相机和激光雷达数据之间的一致性。

  • 如图 4 所示,从观察者的角度来看,粘贴的自行车在原始 3D 场景中被汽车部分遮挡,导致相机图像重叠。如果我们直接将虚拟对象补丁粘贴到图像上,则投影在重叠区域中的对象点可能会获取不匹配的特征。此外,投影到虚拟补丁中的背景点也会捕获不正确的信息。

解决方式:我们确定了前景物体之间的遮挡关系,并从观察者的角度过滤了那些被遮挡的 LiDAR 点。对于相机图像,我们取出虚拟对象和原始对象,并按远近顺序附加它们的补丁。

再详细介绍方法

  • Augmentation for LiDAR Points.
  • Augmentation for Camera Images.

实验

本篇论文也只总共在两个数据集上进行了实验

Ablation Studies(可以参考这里进行自己论文的实验)

  1. 跨模态融合的好处 (a,d):我们的融合架构将仅 LiDAR 的性能显着提高了 +10.1% mAP,这表明跨模态融合对于 3D 对象检测的重要性。(参考这里的话,跨模态的VGG和没有跨模态的VGG对比)
  2. 用于融合的相机输入 (b,c):将 PointPainting 建议的分割分数替换为我们的检测功能会产生 +3.7% 的 mAP 改进。尽管分割分数提供了一个紧凑的表示来补充 LiDAR 点,但 CNN 特征更擅长提供丰富的外观线索和大的感受野。结果表明为相机模态选择有效表示的重要性
  3. 不同的融合机制 (c,d):将我们的后期融合机制与简单的串联进行比较,我们通过使用我们的检测特征作为输入实现了 +1.5% 的 mAP 增益。早期的逐点连接忽略了 LiDAR 和相机之间数据特征的巨大差异。

Cross-Modal data Augmentation

因为本文的数据增强也是一大特点,所以也对数据增强的不同方法进行了ablation studies

visualization of 2D Detection

还通过可显示化证明结果的可靠性和进行分析

Runtime

比较检测速度 (这里的话,感觉没有什么可取的,因为我那个不是很参考检测速度)

总结

在本文中,我们提出了一种新颖的跨模态 3D 对象检测器,名为 PointAugmenting。通过提出的跨模态数据融合和数据增强方案,PointAugmenting 在 nuScenes 检测排行榜上设置了新的最先进的结果。作为跨模态 3D 检测器的强大基线,我们的 PointAugmenting 在未来的工作中可以在两个方面进行改进。首先,尽管我们的后期融合机制有效,但更有效的跨模态融合方案是可取的。此外,考虑到 Waymo 数据集中 LiDAR 和摄像头之间的不同视场,实际应用需要一个适应不同模态(仅 LiDAR 或跨模态)的单一模型。

我的总结

  1. 本论文几乎没有公式
  2. 也没有特别提出创新点,都是受人启发,这是完全没有错的,并且在论文中明确的引用了,很正确的行为。毕竟当前创新的东西早就被人提烂了。
  3. 工作量很大
  4. 逻辑很清晰
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-10-08 20:42:06  更:2022-10-08 20:43:41 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 20:44:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码