| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【点云处理之论文狂读前沿版1】——Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP -> 正文阅读 |
|
[人工智能]【点云处理之论文狂读前沿版1】——Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP |
1.摘要
2.引言
2.相关工作点云分析
局部几何结构
适用于点云的深度网络框架 就在最近,由于简洁MLP结构的高效和可扩展性,受到了很多地关注,因此,我们不再盲目跟风。 3.方法feed-forward residual MLP network + geometric affine module 3.1 Revisiting point-based methods给定一组点云 P = { p i ∣ i = 1 , ? ? , N } ∈ R N × 3 \mathcal{P}=\left\{p_{i} \mid i=1, \cdots, N\right\} \in \mathbb{R}^{N \times 3} P={pi?∣i=1,?,N}∈RN×3, N N N 表示点云的数量, ( x , y , z ) (x, y, z) (x,y,z)表示笛卡尔坐标系下的坐标。 简单介绍下PointNet++ 简单介绍下RSCNN 简单介绍下Point Transformer 3.2 PointMLP的框架结构整个结构用数学语言表示为: g i = Φ pos? ( A ( Φ pre? ( f i , j ) , ∣ j = 1 , ? ? , K ) ) g_{i}=\Phi_{\text {pos }}\left(\mathcal{A}\left(\Phi_{\text {pre }}\left(f_{i, j}\right), \mid j=1, \cdots, K\right)\right) gi?=Φpos??(A(Φpre??(fi,j?),∣j=1,?,K)) 其中 Φ pre? ( ? ) \Phi_{\text {pre }}(\cdot) Φpre??(?)和 Φ pos? ( ? ) \Phi_{\text {pos }}(\cdot) Φpos??(?)是residual point MLP blocks:
具体而言,残差块里包含了许多一样的MLP组合(MLP ( x ) + x (x)+x (x)+x):MLP(FC)+normalization+ activation layers(重复两次) A ( ? ) \mathcal{A}(\cdot) A(?) 表示max-pooling 上式只表示一个阶段,可以重复 s s s次。 PointMLP有着如下优点:
在没有提前声明的情况下, s = 4 s=4 s=4,2个 Φ pre? ( ? ) \Phi_{\text {pre }}(\cdot) Φpre??(?),2个 Φ pos? ( ? ) \Phi_{\text {pos }}(\cdot) Φpos??(?)。选择k-nearest neighbors算法提取邻居, K = 24 K=24 K=24。 3.3 Geometric Affine Module由于点云的局部区域就具有稀疏和不规则性,只使用间的MLP网络的性能并不好。不同局部区域的多个几何结构可能需要不同的提取设备,但共享的残留MLP难以实现这一点。 令 { f i , j } j = 1 , ? ? , k ∈ \left\{f_{i, j}\right\}_{j=1, \cdots, k} \in {fi,j?}j=1,?,k?∈ R k × d \mathbb{R}^{k \times d} Rk×d表示 f i ∈ R d f_{i} \in \mathbb{R}^{d} fi?∈Rd 的邻居,有 k k k个点,每个邻居点 f i , j f_{i, j} fi,j? 是一个 d d d维向量。将局部相邻的点变换为: { f i , j } = α ⊙ { f i , j } ? f i σ + ? + β , σ = 1 k × n × d ∑ i = 1 n ∑ j = 1 k ( f i , j ? f i ) 2 , \left\{f_{i, j}\right\}=\alpha \odot \frac{\left\{f_{i, j}\right\}-f_{i}}{\sigma+\epsilon}+\beta, \quad \sigma=\sqrt{\frac{1}{k \times n \times d} \sum_{i=1}^{n} \sum_{j=1}^{k}\left(f_{i, j}-f_{i}\right)^{2}}, {fi,j?}=α⊙σ+?{fi,j?}?fi??+β,σ=k×n×d1?i=1∑n?j=1∑k?(fi,j??fi?)2?, 其中 α ∈ R d \alpha \in \mathbb{R}^{d} α∈Rd, β ∈ R d \beta \in \mathbb{R}^{d} β∈Rd是可学习的参数, ⊙ \odot ⊙表示两个矩阵元素间相乘, ? = \epsilon= ?= 1 e ? 5 1 e^{-5} 1e?5是一个为了数值稳定性的数。 σ \sigma σ 是系数,描述了所有局部和通道的特征差异,并保留了原始的几何特征。 3.4 计算复杂度和Elite版全连接层参数很多,复杂度也很高,提出了bottleneck结构。我们选择将中间FC层的通道数减少 r r r倍,并增加通道数作为原始特征映射。 在PointMLP-elite中, r = 4 r=4 r=4 4.实验4.1 Shape classification on ModelNetModelNet40:40个类别,9843个训练模型,2468个测试模型。 训练了300个epochs 模型的复杂度不能直接反应效能。 4.2 Shape classification on ScanObjectNNScanObjectNN:真实世界中的重建模型,它包含15000个对象,这些对象分为15个类,在现实世界中有2902个唯一的对象实例。数据集中存在噪声、遮挡,选择最难的PB_T50_RS。 e p o c h s = 200 , b a t c h = 32 epochs=200, batch=32 epochs=200,batch=32,训练了四次,并将标准差记录在下表中。 类别整体精度和平均精度很相近,证明方法很鲁棒。 4.3 消融实验网络深度
Geometric Affine Module
成份消融实验 Loss landscape 4.4 Part segmentationShapeNetPart:16个类别,16,881个形状,每个物体的部分为2-6个。 5.结论
6. 附录6.1 PointMLP detailPointMLP 和 PointMLP-elite有着以下的区别:
6.2 Experiment setting detailModelNet40 PyTorch + Tesla V100 GPU ScanObjectNN epochs =200 ShapeNetPart 6.3 More detialed ablation studiesSkip connection 试着在PointNet++上加了两个skip connection,在ModelNet40上的分类精度变为92.7%。 Pre-MLP block vs. Pos-MLP block 去掉Pos-MLP block的话效果会变得不好,表明
Geometric Affine Module Applications 将Geometric Affine Module用到PointNet++上,在ModelNet40上的分类精度提高到了93.3%。 将Geometric Affine Module用到DGCNN上的效果反而变差了。 6.4 PointMLP depth网络深度计算公式: L = 1 + ∑ i = 1 4 ( 1 + 2 × Pre ? i + 2 × Pos ? i ) + 3 L=1+\sum_{i=1}^{4}\left(1+2 \times \operatorname{Pre}_{i}+2 \times \operatorname{Pos}_{i}\right)+3 L=1+i=1∑4?(1+2×Prei?+2×Posi?)+3 Pre ? i \operatorname{Pre}_{i} Prei?表示 Φ pre? \Phi_{\text {pre }} Φpre??的重复数量, Pos ? i \operatorname{Pos}_{i} Posi?表示 Φ pos? \Phi_{\text {pos }} Φpos??的重复数量,不算Batch Normalization和activation functions,每个块里有两个MLP层,最终的网络深度配置如下图所示。 论文写作亮点
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/6 16:04:09- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |