摘要

先提出背景，然后方法，难点/挑战（不过这篇没在摘要里面提出挑战，应该会放到引言里面提）

背景：摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提供丰富的纹理和颜色提示，而激光雷达则专注于相对距离感应。 3D 物体检测的挑战在于有效地将 2D 相机图像与 3D LiDAR 点融合。
方法：提出了一种新的跨模态 3D 对象检测算法，名为PointAugmenting。
- 简述方法（概括方法）
  - 一方面，PointAugmenting 用预训练的 2D 检测模型提取的相应逐点 CNN 特征来装饰点云，然后在装饰点云上执行 3D 对象检测。与装饰点云的高度抽象的语义分割分数相比，来自检测网络的 CNN 特征适应对象外观变化，取得显着改善。
  - 另一方面，PointAugmenting 受益于一种新颖的跨模态数据增强算法，该算法在网络训练期间始终将虚拟对象粘贴到图像和点云中。

Introduction

paragraph1

介绍3D物体检测和激光雷达背景和挑
1. 背景：3D 对象检测在自动驾驶的 3D 场景理解中起着至关重要的作用。现有的 3D 物体检测算法主要使用激光雷达和相机来感知环境。激光雷达以稀疏点云的形式获取深度信息，而相机以具有丰富色彩和纹理的密集强度阵列形式捕获图像。
2. 挑战： 3D 对象检测的挑战在于图像和点云之间的错位。
3. 解决挑战的方法在这项工作中，我们的目标是通过有效的跨模态数据融合和增强来推进 3D 对象检测。

paragraph2 -5

介绍现有方法和缺点
1. 现有方法：三种跨模态分类：result-level fusion、proposal-level fusion和point-level fusion。
2. 缺点：
  - result-level fusion[13, 21] 采用现成的 2D 对象检测器，因此它们的性能受到 2D 检测器上限的限制。
  - proposal-level fusion的融合方法，例如 MV3D [3] 和 AVOD [8]，在区域提议级别执行融合，导致计算量很大。
  - 最近的方法 [11, 10, 29, 16, 7, 19] 试图通过将点云投影到图像平面上来获取逐点图像特征。[11,10,29] 在与 LiDAR BEV 特征融合之前构建鸟瞰 (BEV) 相机特征以减轻视点不一致。跨视图变换很容易导致特征模糊。
3. （反转）相反，MVX-Net [16]、EPNet [7] 和 PointPainting [19] 直接利用逐点对应来使用 CNN 特征或图像分割的分割分数来增强每个 LiDAR 点。
4. 在分割分数的帮助下，PointPainting 已成为一种流行的融合基线，在大规模数据集上比仅使用 LiDAR 的检测器获得了巨大的收益。
5. **通过实验探索更有效的改进方式（前面夸了Point Painting很好，但是还有不足，因为还存在挑战、可改进的地方）**图像的高维CNN特征比分割分数有更丰富的的外观线索和更大的感受野。
6. 改进： 对发现的高维CNN特点进行改进，把VGG16换成了CenterNet的DLA34层作为输出，是为了强调细粒度的细节以加强点云之间的区别。
7. **再改进：**改善LiDAR和相机之间的模态差距，采用跨模态的后期融合机制。（并展现了融合后的效果）
8. （训练中存在的瓶颈）：跨模态的数据增强
  1. 先介绍现有的数据增强方案GT-Paste
  2. 但这种增强方案会破坏LiDAR点和相机图像之间的一致性
  3. 从而解决这个问题 ：首先遵循观察者的视角，根据几何一致规则过滤被遮挡的 LiDAR 点。然后抓住当前场景中的所有对象，并将它们对应的补丁以远近顺序粘贴到图像上

paragraph6

贡献总结

我们从 2D 对象检测网络中探索有效的 CNN 特征作为图像表示，以与 LiDAR 点融合以进行 3D 对象检测。
考虑到相机和激光雷达之间的模态一致性，我们提出了一种简单而有效的跨模态数据增强方法来训练 3D 对象检测器。
我们在大规模 nuScenes 和 Waymo 数据集上广泛验证了跨模式融合和数据增强的有效性。提出的 3D 检测器 PointAugmenting 在迄今为止的 nuScenes 排行榜上取得了新的最新成果。

PointAugmenting

先用第一段介绍该论文的方法大致结构，然后开始分点详细介绍方法。

Cross-Modal Fusion

Point-wise Feature Fetching 逐点特征提取

最近检测器 PointPainting [19] 的成功启发我们用相机图像的语义来装饰 LiDAR 点。（这里还是大胆的表明了，是引用的别人的方法，并不是自己创新）最后使用了2D对象检测而不是语义分割训练的现成网络

提出了为什么才用这个方法的三个原因：
- 2D与3D互补，专注于对象的不同粒度级别，彼此受益。
- 2D检测标签更容易获得
- 检测网络比分割网络友好
然后再总结自己方法的使用方式。

3D Detection

这里就开始简述该论文的3D检测方法了

Cross-modal data Augment

这里的数据增强也是运用的别人的方法

受最近的图像增强方法 Cutmix [31] 的启发，我们尝试在将虚拟对象的 LiDAR 点粘贴到当前 3D 场景中时同时将图像补丁附加到图像。

主要挑战：在于保持相机和激光雷达数据之间的一致性。

如图 4 所示，从观察者的角度来看，粘贴的自行车在原始 3D 场景中被汽车部分遮挡，导致相机图像重叠。如果我们直接将虚拟对象补丁粘贴到图像上，则投影在重叠区域中的对象点可能会获取不匹配的特征。此外，投影到虚拟补丁中的背景点也会捕获不正确的信息。

解决方式：我们确定了前景物体之间的遮挡关系，并从观察者的角度过滤了那些被遮挡的 LiDAR 点。对于相机图像，我们取出虚拟对象和原始对象，并按远近顺序附加它们的补丁。

再详细介绍方法

Augmentation for LiDAR Points.
Augmentation for Camera Images.

实验

本篇论文也只总共在两个数据集上进行了实验

Ablation Studies（可以参考这里进行自己论文的实验）

跨模态融合的好处 (a,d)：我们的融合架构将仅 LiDAR 的性能显着提高了 +10.1% mAP，这表明跨模态融合对于 3D 对象检测的重要性。(参考这里的话，跨模态的VGG和没有跨模态的VGG对比)
用于融合的相机输入 (b,c)：将 PointPainting 建议的分割分数替换为我们的检测功能会产生 +3.7% 的 mAP 改进。尽管分割分数提供了一个紧凑的表示来补充 LiDAR 点，但 CNN 特征更擅长提供丰富的外观线索和大的感受野。结果表明为相机模态选择有效表示的重要性。
不同的融合机制 (c,d)：将我们的后期融合机制与简单的串联进行比较，我们通过使用我们的检测特征作为输入实现了 +1.5% 的 mAP 增益。早期的逐点连接忽略了 LiDAR 和相机之间数据特征的巨大差异。

Cross-Modal data Augmentation

因为本文的数据增强也是一大特点，所以也对数据增强的不同方法进行了ablation studies

visualization of 2D Detection

还通过可显示化证明结果的可靠性和进行分析

Runtime

比较检测速度（这里的话，感觉没有什么可取的，因为我那个不是很参考检测速度）

总结

在本文中，我们提出了一种新颖的跨模态 3D 对象检测器，名为 PointAugmenting。通过提出的跨模态数据融合和数据增强方案，PointAugmenting 在 nuScenes 检测排行榜上设置了新的最先进的结果。作为跨模态 3D 检测器的强大基线，我们的 PointAugmenting 在未来的工作中可以在两个方面进行改进。首先，尽管我们的后期融合机制有效，但更有效的跨模态融合方案是可取的。此外，考虑到 Waymo 数据集中 LiDAR 和摄像头之间的不同视场，实际应用需要一个适应不同模态（仅 LiDAR 或跨模态）的单一模型。