4 实验
数据集 我们评估了四个数据集,从2D目标(MNIST[11])、3D目标(ModelNet40[31]刚体目标、SHREC15 [12]非刚体目标)到真实的3D场景(ScanNet[5])。目标分类通过准确性进行评估。语义场景标记通过[5]之后的平均体素分类精度进行评估。我们在下面列出了每个数据集的实验设置:
- MNIST:具有60k训练和10k测试样本的手写数字图像。
- ModelNet40:40个类别的CAD模型(大部分是人造的)。我们使用官方拆分,其中9,843个形状用于训练,2,468 个用于测试。
- SHREC15:来自50个类别的1200个形状。每个类别包含24个形状,其中大部分是具有各种姿势的有机形状,如马、猫等。我们使用五重交叉验证来获得该数据集上的分类准确性。
- ScanNet: 1513扫描重建的室内场景。我们遵循[5]中的实验设置,使用1201个场景进行训练,312个场景进行测试。
4.1 欧氏度量空间中的点集分类
我们在分类从2D(MNIST)和3D(ModlNet40)欧式空间采样的点云上评估我们的网络。MNIST图像被转换成数字像素位置的2D点云。3D点云是从ModelNet40形状的网格曲面中采样的。默认情况下,我们为MNIST使用512个点,为ModelNet40使用1024个点。在表2的最后一行(我们的法线),我们使用面法线作为额外的点特征,这里我们也使用更多的点(N = 5000)来进一步提高性能。所有的点集都被标准化为零均值,并且在一个单位球内。我们使用一个具有三个完全连接层的三级分层网络。(有关网络架构和实验准备的更多详细信息,请参见附录。)
结果 在表1和表2中,我们将我们的方法与一组具有代表性的现有技术进行比较。请注意,表2中的PointNet(vanilla)是[20]中不使用转换网络的版本,相当于我们只有一层的分层网络。
首先,我们的分层学习架构比非分层PointNet[20]实现了显着更好的性能。在MNIST中,我们看到从PointNet(vanilla)和PointNet到我们的方法,错误率相对减少了60.8%和34.6%。在ModelNet40分类中,我们还看到使用相同的输入数据大小(1024 个点)和特征(仅坐标),我们的比PointNet强得多。其次,我们观察到基于点集的方法甚至可以实现与成熟图像CNN更好或相似的性能。在 MNIST 中,我们的方法(基于 2D 点集)实现了接近Network in Network CNN的精度。在ModelNet40中,我们的正常信息显着优于之前最先进的方法MVCNN[26]。
对采样密度变化的鲁棒性 直接从现实世界中捕获的传感器数据通常存在严重的不规则采样问题(图1)。我们的方法选择多个尺度的点邻域,并通过适当加权来学习平衡描述性和鲁棒性。
图4:左:random point dropout的点云。右图:曲线显示了我们的密度自适应策略在处理不均匀密度方面的优势。DP表示训练过程中的随机输入丢失;否则训练是在均匀密集的点上进行的。详见第3.3节。
我们在测试期间随机丢弃点(见左图4 ),以验证我们的网络对不均匀和稀疏数据的鲁棒性。在图4右侧,我们看到MSG+DP(训练期间随机输入丢失的多尺度分组)和MRG+DP(训练期间随机输入丢失(random input dropout)的多分辨率分组)对采样密度变化非常鲁棒。从1024到256个测试点,MSG+DP性能下降不到1%。此外,与替代方案相比,它在几乎所有采样密度上都实现了最佳性能。PointNet vanilla[20]在密度变化下相当健壮,因为它关注全局抽象而不是细节。然而,与我们的方法相比,细节的损失也使得它不那么强大。SSG(在每个级别中具有单尺度分组的消融PointNet++)无法推广到稀疏采样密度,而SSG+DP通过在训练时间随机丢弃点来修正问题。
4.2 语义场景标注的点集分割
为了验证我们的方法适用于大规模点云分析,我们还评估了语义场景标记任务。目标是预测室内扫描点的语义目标标签。[5] 在体素化扫描上使用全卷积神经网络提供了baseline。它们完全依赖于扫描几何结构而不是RGB信息,并在每个体素的基础上报告精度。为了进行公平的比较,我们在所有实验中移除了RGB信息,并按照[5]将点云标签预测转换为体素标签。我们还与[20]进行了比较。在图5(蓝条)中,在每个体素的基础上报告了精度。
图5: Scannet标签精度。
我们的方法远远优于所有的baseline方法。与[5]相比,我们直接在点云上学习,以避免额外的量化误差,并进行与数据相关的采样,以实现更有效的学习。与[20]相比,我们的方法引入了分层特征学习,并捕获了不同尺度下的几何特征。这对于理解多个级别的场景和标记不同大小的目标非常重要。我们将示例场景标记结果显示在图6中。
图6:Scannet标签结果。[20]正确捕捉房间的整体布局,但未能发现家具。相比之下,我们的方法在分割房间布局之外的目标方面要好得多。
对采样密度变化的鲁棒性 为了测试我们训练的模型如何在采样密度不均匀的扫描中执行,我们合成了类似于图1中的Scannet场景的虚拟扫描,并根据这些数据评估我们的网络。我们向读者推荐有关我们如何生成虚拟扫描的补充材料。我们在三种设置(SSG、MSG+DP、MRG+DP)中评估我们的框架,并与baseline方法进行比较[20]。
性能比较如图5所示(黄色条)。我们看到,由于采样密度从均匀点云转移到虚拟扫描场景,SSG性能大大下降。另一方面,MRG网络对采样密度变化更加稳健,因为它能够在采样稀疏时自动切换到描绘更粗粒度的特征。即使在训练数据(具有随机丢失的均匀点)和具有非均匀密度的扫描数据之间存在差距,我们的MSG网络也仅受到轻微影响,并且在比较中实现了方法中的最佳精度。这些证明了我们的密度自适应层设计的有效性。
4.3 非欧式度量空间中的点集分类
在这一节中,我们展示了我们的方法对非欧式空间的推广。在非刚体形状分类中(图7),一个好的分类器应该能够正确地将图7中的(a)和?分类为相同的类别,即使给定它们在姿态上的差异,这需要内在结构的知识。SHREC15中的形状是嵌入在3D间中的2D表面。沿表面的测地线距离自然会产生一个度量空间。我们通过实验表明,在这种度量空间中采用PointNet++是一种捕捉底层(underlying)点集内在结构的有效方法。
图7:非刚体形状分类的一个例子。
对于[12]中的每个形状,我们首先构造由成对测地距离产生的度量空间。我们按照[23]获得模拟测地线距离的嵌入度量。接下来,我们提取该度量空间中的固有点特征,包括WKS[1]、HKS[27]和多尺度高斯曲率[16]。我们使用这些特征作为输入,然后根据底层(underlying)度量空间对点进行采样和分组。通过这种方式,我们的网络学会了捕捉不受形状的特定姿势影响的多尺度内在结构。替代设计选择包括使用
X
Y
Z
XYZ
XYZ坐标作为点特征,或者使用欧式空间
R
3
\mathbb{R}^{3}
R3作为基础度量空间。我们在下面展示这些都不是最佳选择。
结果 我们在表3中将我们的方法与之前最先进的方法[14]进行了比较。[14]提取测地线矩作为形状特征,并使用堆叠稀疏自动编码器来消化这些特征以预测形状类别。我们的方法使用非欧式度量空间和内在特征,在所有设置中实现了最佳性能,并且大幅度优于[14]。
比较我们方法的第一种和第二种设置,我们看到内在特征对于非刚体形状分类非常重要。
X
Y
Z
XYZ
XYZ特征无法揭示内在结构,并且受姿势变化的影响很大。比较我们方法的第二和第三个设置,我们看到使用测地线邻域比欧式邻域更有益。欧式邻域可能包括表面上较远的点,并且当形状提供非刚体变形时,该邻域可能会显著改变。这给有效的权重共享带来了困难,因为局部结构可能变得组合复杂。另一方面,曲面上的测地线邻域则解决了这个问题,提高了学习效率。
4.4 特征可视化
在图8中,我们可视化了我们的分级网络的第一级内核已经学习的内容。我们在空间中创建了一个体素网格,并聚集了网格单元中激活某些神经元最多的局部点集(使用了最多100个示例)。保留具有高票数的网格单元并将其转换回3D点云,这代表了神经元识别的模式。由于模型是在主要由家具组成的ModelNet40上训练的,因此我们在可视化中看到了平面、双平面、线、角等结构。
图8:从第一层内核学习的3D点云模式。该模型针对ModelNet40形状分类进行了训练(随机选择128个内核中的20个)。颜色表示点深度(红色表示近,蓝色表示远)。
5 相关工作
分层特征学习的想法非常成功。在所有学习模型中,卷积神经网络[10, 25, 8]是最突出的模型之一。然而,卷积不适用于具有距离度量的无序点集,这是我们工作的重点。
一些最近的工作[20,28]研究了如何将深度学习应用于无序集。他们忽略了底层(underlying)的距离度量,即使点集拥有一个。结果,它们无法捕获点的局部上下文,并且对全局集合转换和标准化很敏感。在这项工作中,我们针对从度量空间中采样的点,并通过在我们的设计中明确考虑潜在的距离度量来解决这些问题。
从度量空间采样的点通常是嘈杂的并且具有不均匀的采样密度。这会影响有效的点特征提取并导致学习困难。关键问题之一是为点特征设计选择合适的尺度。以前在几何处理社区或摄影测量和遥感社区中已经开发了几种方法[19,17,2,6,7,30]。与所有这些工作相比,我们的方法学习以端到端的方式提取点特征并平衡多个特征尺度。
在3D度量空间中,除了点集之外,还有几种流行的深度学习表示方法,包括体积网格[21,22,29]和几何图形[3,15,33]。然而,在这些工作中,没有一个明确地考虑了非均匀采样密度的问题。
结论
在这项工作中,我们提出了PointNet++这种强大的神经网络架构,用于处理度量空间中采样的点集。PointNet++递归地作用于输入点集的嵌套分割,并且在学习关于距离度量的等级特征方面是有效的。为了处理非均匀点采样问题,我们提出了两个新的集合抽象层,根据局部点密度智能地聚集多尺度信息。这些贡献使我们能够在具有挑战性的3D点云基准测试中实现一流的性能。
在未来,如何通过在每个局部区域中共享更多的计算来加速我们提出的网络的推理速度是值得考虑的,特别是对于MSG和MRG层。在更高维度的度量空间中发现应用也是有趣的,其中基于CNN的方法在计算上是不可行的,而我们的方法可以很好地扩展。
参考文献
[1] M. Aubry, U. Schlickewei, and D. Cremers. The wave kernel signature: A quantum mechanical approach to shape analysis. In Computer Vision Workshops (ICCV Workshops), 2011 IEEE International Conference on, pages 1626–1633. IEEE, 2011.
[2] D. Belton and D. D. Lichti. Classification and segmentation of terrestrial laser scanner point clouds using local variance information. Iaprs, Xxxvi, 5:44–49, 2006.
[3] J. Bruna, W. Zaremba, A. Szlam, and Y . LeCun. Spectral networks and locally connected networks on graphs. arXiv preprint arXiv:1312.6203, 2013.
[4] A. X. Chang, T. Funkhouser, L. Guibas, P . Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su, J. Xiao, L. Yi, and F. Y u. ShapeNet: An Information-Rich 3D Model Repository. Technical Report arXiv:1512.03012 [cs.GR], 2015.
[5] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nie?ner. Scannet: Richly-annotated 3d reconstructions of indoor scenes. arXiv preprint arXiv:1702.04405, 2017.
[6] J. Demantké, C. Mallet, N. David, and B. V allet. Dimensionality based scale selection in 3d lidar point clouds. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 38(Part 5):W12, 2011.
[7] A. Gressin, C. Mallet, J. Demantké, and N. David. Towards 3d lidar point cloud registration improvement using optimal neighborhood knowledge. ISPRS journal of photogrammetry and remote sensing, 79:240– 251, 2013.
[8] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016.
[9] D. Kingma and J. Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.
[10] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.
[11] Y . LeCun, L. Bottou, Y . Bengio, and P . Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.
[12] Z. Lian, J. Zhang, S. Choi, H. ElNaghy, J. El-Sana, T. Furuya, A. Giachetti, R. A. Guler, L. Lai, C. Li, H. Li, F. A. Limberger, R. Martin, R. U. Nakanishi, A. P . Neto, L. G. Nonato, R. Ohbuchi, K. Pevzner, D. Pickup, P . Rosin, A. Sharf, L. Sun, X. Sun, S. Tari, G. Unal, and R. C. Wilson. Non-rigid 3D Shape Retrieval. In I. Pratikakis, M. Spagnuolo, T. Theoharis, L. V . Gool, and R. V eltkamp, editors, Eurographics Workshop on 3D Object Retrieval. The Eurographics Association, 2015.
[13] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv preprint arXiv:1312.4400, 2013.
[14] L. Luciano and A. B. Hamza. Deep learning with geodesic moments for 3d shape classification. Pattern Recognition Letters, 2017.
[15] J. Masci, D. Boscaini, M. Bronstein, and P . V andergheynst. Geodesic convolutional neural networks on riemannian manifolds. In Proceedings of the IEEE International Conference on Computer Vision Workshops, pages 37–45, 2015.
[16] M. Meyer, M. Desbrun, P . Schr?der, A. H. Barr, et al. Discrete differential-geometry operators for triangulated 2-manifolds. Visualization and mathematics, 3(2):52–58, 2002.
[17] N. J. MITRA, A. NGUYEN, and L. GUIBAS. Estimating surface normals in noisy point cloud data. International Journal of Computational Geometry & Applications, 14(04n05):261–276, 2004.
[18] I. Occipital. Structure sensor-3d scanning, augmented reality, and more for mobile devices, 2016.
[19] M. Pauly, L. P . Kobbelt, and M. Gross. Point-based multiscale surface representation. ACM Transactions on Graphics (TOG), 25(2):177–193, 2006.
[20] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. arXiv preprint arXiv:1612.00593, 2016.
[21] C. R. Qi, H. Su, M. Nie?ner, A. Dai, M. Yan, and L. Guibas. V olumetric and multi-view cnns for object classification on 3d data. In Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2016.
[22] G. Riegler, A. O. Ulusoys, and A. Geiger. Octnet: Learning deep 3d representations at high resolutions. arXiv preprint arXiv:1611.05009, 2016.
[23] R. M. Rustamov, Y . Lipman, and T. Funkhouser. Interior distance using barycentric coordinates. In Computer Graphics F orum, volume 28, pages 1279–1288. Wiley Online Library, 2009.
[24] P . Y . Simard, D. Steinkraus, and J. C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In ICDAR, volume 3, pages 958–962, 2003.
[25] K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[26] H. Su, S. Maji, E. Kalogerakis, and E. G. Learned-Miller. Multi-view convolutional neural networks for 3d shape recognition. In Proc. ICCV , to appear, 2015.
[27] J. Sun, M. Ovsjanikov, and L. Guibas. A concise and provably informative multi-scale signature based on heat diffusion. In Computer graphics forum, volume 28, pages 1383–1392. Wiley Online Library, 2009.
[28] O. Vinyals, S. Bengio, and M. Kudlur. Order matters: Sequence to sequence for sets. arXiv preprint arXiv:1511.06391, 2015.
[29] P .-S. W ANG, Y . LIU, Y .-X. GUO, C.-Y . SUN, and X. TONG. O-cnn: Octree-based convolutional neural networks for 3d shape analysis. 2017.
[30] M. Weinmann, B. Jutzi, S. Hinz, and C. Mallet. Semantic point cloud interpretation based on optimal neighborhoods, relevant features and efficient classifiers. ISPRS Journal of Photogrammetry and Remote Sensing, 105:286–304, 2015.
[31] Z. Wu, S. Song, A. Khosla, F. Y u, L. Zhang, X. Tang, and J. Xiao. 3d shapenets: A deep representation for volumetric shapes. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1912–1920, 2015.
[32] L. Yi, V . G. Kim, D. Ceylan, I.-C. Shen, M. Yan, H. Su, C. Lu, Q. Huang, A. Sheffer, and L. Guibas. A scalable active framework for region annotation in 3d shape collections. SIGGRAPH Asia, 2016.
[33] L. Yi, H. Su, X. Guo, and L. Guibas. Syncspeccnn: Synchronized spectral cnn for 3d shape segmentation. arXiv preprint arXiv:1612.00606, 2016.
|