Not All Points Are Equal:IA-SSD
写在前面:与最近读的RandLa-Net的切入点类似:downsampling的方法。
Motivation
目前的Point-Based的方法都使用"task-agnostic"(与检测本身无关)的采样方法:Random、D-FPS、Feat-FPS。对于这些采样方法都忽略了:“对于检测任务来说,前景点比背景点更重要”。
Contribution
- 本文提出了两个"learnable, task-oriented, instance-aware"采样方法(与检测任务相关的可以感知实例的学习方法)。
- 基于采样方法提出了一个高效的模型IA-SSD。
- 在KITTI、Waymo、ONCE数据集上进行了大量实验。
Keyknowledge
Instance-aware Downsampling Strategy
- Class-aware Sampling
训练分支学习点语义信息*,预测每一个点的前景点概率分数,取前k大的作为采样点送入下一层。 损失函数使用普通的交叉熵: 与Feature-FPS的区别:本文只关心前/背景的语义信息,而F-FPS关心的是全部的特征信息。同时本文想要尽可能多的前景点,而F-FPS想要的是特征差距尽可能大的点。 - Centroid-aware Sampling
在Class-aware Sampling的基础上引入中心掩码mask: mask与3DSSD中的中心度相同: 利用中心掩码对交叉熵loss进行加权,来提高接近中心点被采样的可能,尽可能地保留中心点(考虑到实例中心估计是最终目标检测的关键):
Contextual Instance Centroid Perception
- Contextual Centroid Prediction
遵循VoteNet的方法预测一个与中心的偏移,同时加入了一项正则化,使得每一个实例的中心预测都被聚合,减少预测中心偏移的不稳定性: 与VoteNet仅利用BBox内的点预测中心点不同,本文也利用周围的代表点:手动扩展BBox,或者按比例放大该框,以覆盖物体附近更多相关的上下文信息。 - Centroid-based Instance Aggregation
对每一个中心点,使用PointNet++学习实例的特征:将相邻点转化为局部正则坐标系,然后通过shared mlp和对称函数对点特征进行聚合。 - Proposal Generation Head
根据聚合的实例特征进行BBox的预测,然后进行3D-NMS后处理。
Loss
将多个loss相加联合优化,实现端到端训练。
Experiment
采样方法在KITII验证集上的对比
在采样点数少的情况下(256points)文章提出的两个采样对实例的采样比例明显由于其他采样方法。同时Feature-FPS考虑到了每个点的特征,因此对实例的采样比例也是高于random与D-FPS。
不同的方法在KITTI测试集上的检测性能定量对比
IA-SSD在Car、Cyc两个实例上效果较好,在Point-based的方法中精度较高,但是低于PV_RCNN,并且在Ped实例上效果较差。同时检测速度高于其他所有方法。
|