[CVPR2021] Semantic segmentation for real point cloud scenes via bilateral augmentation and adaptive fusion
abstract
- 任务:大规模场景下的语义分割
- 创新点1:为降低临近点的模糊性,文章采用一个双边结构充分的利用几何和语义特征以增强局部上下问信息。
- 创新点2:文章综合的解释量在多分辨率特征下点的清晰性,采用自适应融合模块对特征映射图进行点级表示。
introdcution
-
与2D图片不同,三维点云是离散的、不规则的、无序的、不均匀分布在3D空间中。 -
基于数据驱动的卷积神经网络方法可分为三种:基于映射的、基于离散化的、以及基于点的。基于映射的放在是将3D点云投影成2D多视角图片,然后再用FCN(全卷积神经网络进行处理)。基于离散化的方法则是将点云离散化成体素网格或者lattices,最后再将语义分割结果重新插值回原始点云。前面提到的基于映射和基于离散化的方法有一些共性的问题: (1)为了对点云进行预测,需要花费时间进行预处理或者后处理。 (2)生成的中间表示(多视角图片、体素网格、lattices)可能会损失部分环境的上下问信息。 -
基于上述提到的问题,文章才立足在基于点的神经网络上。然而对与基于点的神经网路仍然存在这下述问题: (1)临近点的模糊性:现在的方法大多是利用它预先定义好的特征进行表示的。因此就不可避免的存在重合和离群点,特别是对于在不同类别的边界中的点。为了减轻这一影响,文章尝试利用一个密集区域去增增强局部上下文。引入一个鲁棒的聚集处理操作去细化增强的局部上下文信息以及提取有用的领域信息为了更好的点特征表达。 (2)冗余的特征:大量的工作都是多次连接相似的特征来增强模型的感知能力,但是事实上,这样的处理,对于处理大规模场景的点云来说,会造成冗余以及提升模型的复杂度。为了避免这一问题,文章提出将输入信息分为几何信息和语义信息,然后通过一个双边结构去完全地利用他们。 (3)不足地全局表达:一般的语义分割框架采用编码解码(Encoder-Decoder)结构学习采样后的数据。因为对原始数据的全局感知可能在采样过程中可能被损害,所以采用编码解码结构得到的输出特征映射对于语义分割分析来书是不足的。因此文章提出自适应地融合多分辨率地特征以获得综合的表示。
methodology
|