3.3.3 基于图的方法
基于图的网络将点云中的每个点视为图的顶点,并基于每个点的邻域生成图的有向边。 然后在空间或光谱域中执行特征学习[85]。 典型的基于图形的网络如图5所示。
图5:基于图形的网络的图示。
空间领域中基于图的方法。 这些方法定义了空间域中的操作(例如卷积和池化)。具体来说,卷积通常通过空间邻域上的MLP来实现,并且通过聚合来自每个点的邻域的信息,采用池来产生新的粗化图。每个顶点的特征通常指定坐标、激光强度或颜色,而每个边的特征通常指定两个连接点之间的几何属性。 作为一项开创性的工作,Simonovsky等人[85]将每个点视为图的一个顶点,并通过一条有向边将每个顶点与所有的邻域连接起来。然后,使用滤波器生成网络(如MLP)提出了Edge Conditioned Convolution(ECC)。 采用最大池化来聚合邻域信息,并基于体素网格实现图形粗化[86]。在DGCNN[87]中,在特征空间中构造一个图,并在网络的每一层之后动态更新。 作为EdgeConv的核心层,MLP被用作每个边缘的特征学习函数,通道对称聚合被应用到与每个点的邻域相关联的边缘特征上。 此外,LDGCNN[88]删除了转换网络,并将DGCNN[87]中不同层的层次特征链接起来,以提高其性能并减小模型尺寸。 此外,LDGCNN[88]删除了转换网络,并将DGCNN[87]中不同层的层次特征链接起来,以提高其性能并减小模型大小。还提出了一种端到端的无监督深度自动编码器网络(即FoldingNet[89]),使用向量化局部协方差矩阵和点坐标的串联作为其输入。 受到Inception[90]和DGCNN[87]的启发,Hassani和Haley[91]提出了一种无监督多任务自动编码器来学习点和形状特征。 编码器是基于多尺度图构造的。 解码器由三个无监督任务构成,包括聚类、自监督分类和重建,这三个任务与多个任务一起训练。 Liu等人[92]提出了一种基于图卷积的Dynamic Points Agglomeration Module(DPAM),将点聚集过程(采样、分组和合并)简化为一个简单的步骤,通过聚集矩阵和点特征矩阵的乘法实现。在PointNet体系结构的基础上,通过堆叠多个DPAM来构建分层学习体系结构。 与PointNet++[54]的层次结构策略相比,DPAM动态地利用点之间的关系,并在语义空间中聚集点。
为了利用局部几何结构,KCNet[93]基于核相关性学习特征。 具体来说,一组表征局部结构几何类型的可学习点被定义为核。 然后,计算核和给定点的邻域之间的亲和度。在G3D [94]中,卷积被定义为邻接矩阵的多项式的变体,池化被定义为拉普拉斯矩阵和顶点矩阵乘以一个粗化矩阵。ClusterNet[95]利用严格的旋转不变量模块,从每个点的k个近邻中提取旋转不变量特征,并基于无监督的聚类分层方法,用Ward-linkage标准构建点云的分层结构[96]。每个子集群中的特征首先通过EdgeConv块学习,然后通过最大池化层聚合。
为了解决当前数据结构化方法(例如FPS和邻近点查询)的耗时问题,Xu等人[97]提出融合基于体积的方法和基于点的方法的优点来提高计算效率。ModelNet分类任务的实验表明,所提出的Grid-GCN网络的计算效率平均比其他模型快5倍。
谱域中基于图的方法。 这些方法将卷积定义为频谱滤波,实现为图上的信号与图的拉普拉斯矩阵的特征向量相乘[98],[99]。
RGCNN [100]通过将每个点与点云中的所有其他点连接来构造一个图,并更新每一层中的图的拉普拉斯矩阵。为了使相邻顶点的特征更加相似,在损失函数中加入了图形信号平滑性先验。为了解决数据的多样化图拓扑结构带来的挑战,AGCN[101]中的SGC-LL层利用一个可学习的距离度量来参数化图上两个顶点之间的相似度。利用高斯核和学习距离对从图中得到的邻接矩阵进行归一化。 HGNN[102]通过在超图上应用谱卷积来构建超边卷积层。
上述方法在完整的图上运行。 为了利用局部结构信息,Wang等人[103]提出了一种端到端谱卷积网络LocalSpecGCN来处理局部图(由k个最近邻构造)。 该方法不需要对图的拉普拉斯矩阵和图的粗化层次结构进行任何离线计算。在PointGCN[104]中,基于点云中的k个最近邻构建图,并使用高斯核对每条边进行加权。卷积滤波器被定义为图谱域中的切比雪夫多项式。全局池化和多分辨率池化用于捕获点云的全局和局部特征。潘等人[105]通过对谱域中的k个最近邻图应用卷积,提出了3DTI-Net。通过学习相对欧几里得距离和方向距离来实现对几何变换的不变性。
3.3.4基于分层数据结构的方法
这些网络是基于不同的层次数据结构(例如八叉树和kd树)构建的。 在这些方法中,点特征是沿着树从叶节点到根节点分层学习的。
雷等人[77]提出了一种使用球形卷积核的八叉树引导的CNN(如第3.3.2节所述)。网络的每一层对应于八叉树的一层,并且在每一层应用球形卷积核。当前层中神经元的值被确定为前一层中所有相关子节点的平均值。与基于八叉树的OctNet[49]不同,Kd-Net[106]是使用在每次迭代中具有不同分裂方向的多个K-d树构建的。根节点的特征(描述整个点云)最终被馈送到全连接层以预测分类分数。请注意,Kd-Net根据节点的分割类型在每一层共享参数。3DContextNet[107]使用一个标准的平衡K-d树来实现特征学习和聚集。在每个级别,点特征首先通过基于局部线索(模拟局部区域中点之间的相互依赖关系)和全局上下文线索(模拟一个位置相对于所有其他位置的关系)的MLP来学习。然后,使用MLP从其子节点计算非叶节点的特征,并通过最大池化聚合。对于分类,重复上述过程,直到获得根节点。
SO-Net网络的层次结构是通过执行点到节点k最近邻搜索来构建的[108]。具体来说,一种改进的置换Self Organizing Map(SOM)被用来模拟点云的空间分布。 通过一系列完全连接的层,从标准化的点到节点坐标中学习各个点特征。 SOM中每个节点的特征是使用通道最大池化从与该节点相关的点特征中提取的。 然后使用类似于PointNet[5]的方法从节点特征中学习最终特征。 与PointNet++[54]相比,SOM的层次结构更高效,并且充分探索了点云的空间分布。
3.3.5其他方法
此外,还提出了许多其他方案。RBFNet[113]通过将稀疏分布的径向基函数(RBF)核的特征与可学习的核位置和大小进行聚合,明确地对点的空间分布进行建模。 3DPointCapsNet [112] 使用逐点 MLP 和卷积层学习点独立特征,并使用多个最大池化层提取全局潜在表示。基于无监督动态路由,学习具有强大代表性的潜在胶囊。 秦等人[116]提出了一种端到端的无监督域适配网络PointDAN,用于三维点云表示。 为了捕捉点云的语义属性,提出了一种自监督方法来重建点云,该点云的各个部分已被随机重新排列[117]。 Li等人[118]提出了一个自动增强框架PointAugment,用于自动优化和增强用于网络训练的点云样本。 具体来说,每个输入样本的形状转换和逐点位移是自动学习的,并且通过交替优化和更新其增强器和分类器的可学习参数来训练网络。受形状上下文[119]的启发,Xie等人[109]提出了一个ShapeContextNet架构,将亲和点选择和紧凑的特征聚合结合到一个使用点积自注意力的软对齐操作中[120]。为了处理3D点云中的噪声和遮挡,Bobkov等人[121]将手工制作的基于点对函数的4D旋转不变描述符输入4D卷积神经网络。 Prokudin等人[122]首先从单位球中随机采样一个均匀分布的基点集,然后将点云编码为到基点集的最小距离。因此,点云被转换成具有相对较小的固定长度的向量。然后可以用现有的机器学习方法处理编码的表示。
RCNet[115]利用标准的RNN和2D CNN来构建用于3D点云处理的置换不变网络。点云首先被分割成平行的光束,并沿着特定的维度排序,然后每个光束被送入一个共享的RNN。学习到的特征被进一步输入到一个高效的2D CNN中,用于分层特征聚合。为了增强其描述能力,RCNet-E提出沿不同划分和排序方向集成多个RCNet。Point2Sequences [114]是另一个基于RNN的模型,它捕捉点云局部区域中不同区域之间的相关性。它将在多个尺度上从局部区域学习的特征视为序列,并将来自所有局部区域的这些序列馈送到基于RNN的编码器-解码器结构中,以聚集局部区域特征。
一些方法也从3D点云和2D图像中学习。在PVNet[110]中,从多视点图像中提取的高层全局特征通过嵌入网络投影到点云的子空间中,并通过软注意掩码与点云特征融合。在PVNet[110]中,从多视图图像中提取的高级全局特征通过嵌入网络投影到点云的子空间中,并通过软注意机制掩码与点云特征融合。最后,对融合特征和多视图特征采用残差连接来进行形状识别。后来,进一步提出 PVRNet [111] 通过关系评分模块来利用 3D 点云与其多个视图之间的关系。基于关系分数,原始二维全局视图特征被增强用于点单视图融合和点多视图融合。
表 2:ModelNet10/40基准的比较3D形状分类结果。在这里,我们只关注基于点的网络。“#params”代表模型的参数数量,“OA”代表所有测试实例的平均精度,“mAcc”代表表中所有形状类别的平均精度。符号“-”表示结果不可用。
3.4 总结
ModelNet10/40[6]数据集是3D形状分类最常用的数据集。表2显示了不同基于点的网络所取得的结果。可以得出几个观察结果:
- Pointwise MLP 网络通常用作其他类型网络学习逐点特征的基本构建块。
- 作为标准的深度学习架构,基于卷积的网络可以在不规则的3D点云上实现卓越的性能。对于不规则数据,应更加注意离散和连续卷积网络。
- 由于其固有的强大处理不规则数据的能力,基于图的网络近年来越来越受到关注。然而,将谱域中的基于图的网络扩展到各种图结构仍然具有挑战性。
4 3D物体检测和跟踪
在本节中,我们将回顾现有的3D目标检测、3D目标跟踪和3D场景流估计方法。
4.1 3D物体检测
典型的3D目标检测器将场景的点云作为其输入,并在每个检测到的目标周围生成一个定向的3D边界框,如图 6 所示。类似于图像中的对象检测[123],3D对象检测方法可以分为两类:基于区域 proposals的方法和单次方法。图7展示了几种里程碑方法。
图6、3D 物体检测示意图。(a)和(b)最初分别显示在[124]和[125]中
图7、最相关的基于深度学习的3D目标检测方法的时序概述
4.1.1 Region Proposal-based Methods
这些方法首先提出几个包含目标的可能区域(也称为proposals),然后提取区域特征来确定每个proposals的类别标签。根据它们的目标proposals生成方法,这些方法可以进一步分为三类:基于多视图、基于分割和基于平截锥体的方法。
基于多视图的方法。这些方法融合来自不同视图地图(例如,LiDAR前视图、鸟瞰视图(BEV)和图像)的proposals特征,以获得3D旋转框,如图8(a)所示。这些方法的计算成本通常很高。
Chen等人[4]从BEV图生成了一组高度精确的3D候选框,并将其投影到多个视图的特征图(例如,LiDAR前视图图像、RGB图像)。然后,他们将这些来自不同视图的区域特征组合起来,以预测定向的3D边界框,如图8(a)所示。尽管这种方法在只有300个proposals的情况下,在0.25的交集(IoU)上实现了99.1%的召回率,但是其速度对于实际应用来说太慢了。随后,从两个方面开发了几种方法来改进多视图3D对象检测方法。
图 8:三类基于区域proposal的3D目标检测方法的典型网络。从上到下:(a)基于多视图,(b)基于分割和(c)基于截锥体的方法。
首先, 已经提出了几种方法来有效地融合不同模态的信息。为了生成对小物体具有高召回率的3D proposals,Ku等人[126]提出了基于多模态融合的区域proposal网络。他们首先使用裁剪和大小调整操作从BEV和图像视图中提取大小相等的特征,然后使用元素方式均值池化来融合这些特征。Liang等人[127]利用连续卷积来实现不同分辨率的图像和3D激光雷达特征图的有效融合。具体来说,他们为BEV空间中的每个点提取最近的对应图像特征,然后使用双线性插值,通过将图像特征投影到BEV平面来获得密集的BEV特征图。实验结果表明,密集BEV特征图比离散图像特征图和稀疏LiDAR特征图更适合三维目标检测。梁等人[128]提出了一种用于端到端训练的多任务多传感器3D对象检测网络。具体而言,利用多个任务(例如,2D物体检测、地面估计和深度完成)来帮助网络学习更好的特征表示。进一步利用所学习的跨模态表示来产生高度精确的对象目标结果。实验结果表明,该方法在2D、3D和BEV检测任务上实现了显著的改进,并且在TOR4D基准测试上优于之前的最新方法[129],[130]。
其次, 研究了不同的方法来提取输入数据的鲁棒表示。Lu等人[39]通过引入Spatial Channel Attention(SCA)模块探索了多尺度上下文信息,该模块捕获场景的全局和多尺度上下文,并突出有用的特征。他们还提出了一个Extension Spatial Unsample (ESU)模块,通过组合多尺度低级特征来获得具有丰富空间信息的高级特征,从而生成可靠的3D目标proposals.虽然可以实现更好的检测性能,但是上述多视图方法需要很长的运行时间,因为它们为每个proposal执行特征池化。随后,Zeng等人[131]使用pre-RoI池化卷积来提高[4]的效率。具体来说,他们将大部分卷积运算移到了RoI池化模块的前面。具体来说,他们将大部分卷积运算移到了RoI池化模块的前面。因此,对所有目标proposals执行一次RoI卷积。实验结果表明,该方法的运行速度为11.1fps,是MV3D的5倍[4]。
基于分割的方法。 这些方法首先利用现有的语义分割技术去除大部分背景点,然后在前景点上生成大量高质量的proposals以节省计算,如图8(b)所示。与多视图方法[4]、[126]、[131]相比,这些方法实现了更高的目标召回率,并且更适合于具有高度遮挡和聚集目标的复杂场景。
Yang等人[132]使用2D分割网络来预测前景像素,并将其投影到点云中,以消除大多数背景点。然后,他们根据预测的前景点生成proposals,并设计了一个名为PointsIoU的新标准,以减少proposals的冗余和模糊性。继[132]之后,史等人[133]提出了PointRCNN框架。具体来说,他们直接分割3D点云以获得前景点,然后融合语义特征和局部空间特征以产生高质量的3D框。继[133]的Region Proposal Network(RPN)阶段之后,Jesus等人[134]提出了一项开创性的工作,即利用图形卷积网络(GCN)进行3D目标检测。具体来说,引入了两个模块来使用图形卷积优化目标proposals。第一模块R-GCN利用包含在proposal中的所有点来实现per-proposal的特征聚集。第二个模块C-GCN融合来自所有proposals的性能信息,通过利用上下文回归精确的目标框。Sourabh等人[135]将点云投影到基于图像的分割网络的输出中,并将语义预测分数附加到这些点上。将绘制出的点输入到现有的检测器[133]、[136]、[137]中,以实现显著的性能改进。Yang等人[138]将每个点与一个球形的锚框联系起来。然后,使用每个点的语义得分删除多余的锚框。因此,与之前的方法[132],[133]相比,这种方法以更低的计算成本实现了更高的召回率。 此外,提出了一个PointsPool层来学习proposals中内部点的紧凑特征,并引入了一个并行IoU分支来提高定位精度和检测性能。
基于截锥的方法。 这些方法首先利用现有的2D目标检测器来生成目标的2D候选区域,然后为每个2D候选区域提取3D截锥体proposal,如图8(c)所示。尽管这些方法可以有效地提出3D目标的可能位置,但是逐步流水线使得它们的性能受到2D图像检测器的制约。
F-PointNets[139]是这个方向的一个开创性工作。它为每个2D区域生成一个平截锥建议,并应用PointNet[5](或PointNet++ [54])来学习每个3D平截锥的点云特征,用于模型3D框估计。在后续工作中,Zhao等人[140]提出了一个点传感模型来预测一组缩放因子,这些因子进一步用于自适应地突出有用特征并减少无信息特征。他们还将PointSIFT[141]模块集成到网络中,以捕捉点云的方向信息,这对于形状缩放具有很强的鲁棒性。与F-PointNets [139]相比,这种方法在室内和室外数据集[14]、[25]上都取得了显著的改善。
表 3:KITTI测试3D检测基准上的比较3D目标检测结果。汽车的3D边界框IoU阈值为0.7,行人和骑自行车的人为0.5。模态是激光雷达(L)和图像(I)。 “E”、“M”和“H”分别代表简单、中等和困难的目标类别。为简单起见,我们省略了值后的“%”。符号“-”表示结果不可用。
Xu等人[142]利用2D图像区域及其对应的平截锥体点精确回归3D框。为了融合点云的图像特征和全局特征,他们提出了一个全局融合网络来直接回归框角位置。 他们还提出了一个密集的融合网络,用于预测每个角的逐点偏移。Shin等人[143]首先从2D图像中估计物体的2D边界框和3D姿态,然后提取多个几何可行的候选物体。这些3D候选目标被输入到框回归网络中,以预测精确的3D目标框。Wang等人[144]沿每个区域的截锥轴生成了一系列截锥,并应用PointNet [5]提取每个截锥的特征。对frustum-level特征进行改造,生成二维特征图,然后将其送入全卷积网络中进行三维框估计。该方法在基于2D图像的方法中实现了最先进的性能,并在KITTI官方排行榜上排名第一。 Johannes等人[145]首先在BEV图上获得初步检测结果,然后根据BEV预测提取小的点子集(也称为切片)。应用局部细化网络来学习切片的局部特征,以预测高度精确的3D边缘框。其他方法。受轴对齐IoU在图像目标检测中的成功启发,周等人[146]将两个3D旋转边界框的IoU集成到几个最先进的检测器中[133]、[137]、[158],以实现一致的性能提升。Chen等人[147]提出了一种两阶段网络架构,使用点云和体素表示。首先,对点云进行体素化,并将其送入3D主干网络,以产生初始检测结果。其次,进一步利用初始预测的内点特征进行框优化。尽管这种设计在概念上很简单,但它在保持16.7fps的速度的同时实现了与[133]相当的性能。石等人[148]提出PointVoxel-RCNN(PV-RCNN)以利用3D卷积网络和基于PointNet的集合抽象来学习点云特征。具体来说,首先对输入点云进行体素化,然后将其输入3D稀疏卷积网络以生成高质量的proposals。然后,通过体素集抽象模块将所学习的体素特征编码到一小组关键点中。此外,他们还提出了一个关键点到网格ROI抽象模块,以捕获丰富的上下文信息来进行框优化。实验结果表明,该方法明显优于以往的方法,在KITTI 3D检测基准的Car类上排名第一。
受基于Hough投票的2D目标检测器的启发,Qi等人[124]提出VoteNet直接从点云中为目标的虚拟中心点投票,并通过聚合投票特征生成一组高质量的3D目标提议。VoteNet明显优于仅使用几何信息的先前方法,并在两个大型室内基准测试(即ScanNet[11]和SUN RGB-D[25])上实现了最先进的性能。然而,对于部分遮挡的物体,虚拟中心点的预测是不稳定的。然而,对于部分遮挡的物体,虚拟中心点的预测是不稳定的。此外,冯等人[149]添加了方向向量的辅助分支,以提高虚拟中心点和3D候选框的预测精度。此外,还构建了proposals之间的3D目标-目标关系图,以强调用于准确目标检测的有用特征。Qi等人[150]通过将2D目标检测线索(例如,几何和语义/纹理线索)融合到3D投票pipeline中,提出了ImVoteNet检测器。Shi等人[151]受3D目标的地面真值框提供目标内部部分的精确位置这一观察结果的启发,提出了Part-
A
2
A^2
A2网络,该网络由部分感知阶段和部分聚合阶段组成。部分感知阶段应用具有稀疏卷积和稀疏反卷积的UNet-like[165]网络来学习用于预测和粗略生成目标内部分位置的逐点特征。
|