论文标题:Point Density-Aware Voxels for LiDAR 3D Object Detection 机构:多伦多大学 时间:2022年CVPR 论文链接 代码链接
这篇论文主要针对传统体素提取点云和直接对原始点云进行处理方法存在的不足,提出一种基于点密度的概念。
论文主要分为三个创新点:
(1) 在体素计算中,用质心(即每个体素中所有点坐标的平均值)取代原先的体素坐标中心。作者认为基于点的特征提取,例如FPS(大概原理就是从一群无序的原始点中,利用数学公式筛选出离初始点最远的一些点,选用这些点替代这群无序的原始点进行卷积计算,详细可以看pointnet++那篇论文)因为冗余的计算成本而被淘汰,而基于体素的方法的性能受到量化点云的限制,因为细粒度的点级信息会在体素化过程中丢失。
在体素骨干上还是采用SECOND的方法,采用相似的方法进行系数卷积编码。
首先,计算计算第l层中所有非空体素的各个体素质心,得到该层的非空体素集,同时使用中间哈希表有效地将每个计算出的体素点质心映射到相应的特征向量(和SECOND类似,只不过中心换成了质心),然后运用卷积核,采用类似图像提取特征的方法,通过平移卷积核,来计算推出下一层体素的质心集合, 避免使用每个层的整个点云重新计算质心。
(2) 使用PV-RCNN中的创新使用RoI Grid Pooling,以编码局部点密度作为附加特征。使用核密度KDE(数学原理可以参考这位博主论文)来估计每个网格点球查询内的局部特征密度。
首先用一个集合来整合一个网格点球中所有体素质心,如果某一区域的质心较多,则认为该区域的点云偏多,通过自注意力机制(transformer中的创新,通过向量内积,再用softmax归一化来赋值权重向量,和原始特征矩阵相乘,最后加上残差得到新的自注意力特征矩阵)来给这些点添加较大的权重值,使得该区域在后续计算中成为感兴趣区域。
(3)最后利用距离与被扫描物体上的LiDAR点数量之间的关系以及最终边界框质心位置来预测最终边界盒预测的置信度。即在box confidence分支中额外添加两个特征,质心信息和边界框中的原始点的数量。
|