IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> PointNet和PointNet++论文解读 -> 正文阅读

[人工智能]PointNet和PointNet++论文解读

一、PointNet

论文题目：PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation (CVPR 2017)

源码下载：https://github.com/charlesq34/pointnet

b站原作者汇报：【中英】PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation_哔哩哔哩_bilibili

1.背景

以前大多数处理点云的深度神经网络都是将点云转化为其他形式，再使用现有的神经网络，如3D CNN，大多数对点云的特征提取也只是针对特定任务手工完成，因此如何在点云上直接进行有效的特征学习？

2.应用方向

直接对点云进行操作，如点云分类、点云分割（部件分割、场景语义分割，类似图像的逐像素分析进行逐点分析）

3.点云的特性

无序性（置换不变性）：一个点集中的各个点之间是没有顺序的

点之间的相关作用：相邻点可以构成局部结构

旋转不变性：同一个点云物体，无论输入是什么方向和位置，输出的结果应保持相同，对分割分类任务都适用，但对点云配准或者点云补全等任务来说，不能忽略点云的姿态

非结构化：直接CNN很难，不能像图像一样直接按照区域提取特征

4.pointnet的雏形

如何为无序集输入设计神经网络？针对点的置换不变性可知，设计的网络必须是一个对称函数，需要对N！种排列保持不变，将每个点都映射到一个高维空间后，再利用对称函数提取特征，可以弥补损失的特征。

?以下结构的网络可以保证输出对输入顺序保持不变性

pointnet怎么实现上述结构？

可以证明任何连续的对称函数都可以由pointnet任意近似，

本文使用MLP作为h函数独立且相同地对每个点升维，使用最大池化层作为g对称函数来聚合所有点的信息，使用MLP作为γ函数转化聚合信息。

5.整体网络分析

（1）输入：n×3（n为点的个数，3为点的特征维度，包含xyz三轴的坐标，如果加上法向信息，则为6）

（2）transform：矫正输入的点云，保证能够识别同一个但方向不同的物体输入，由T-net来实现，学习一个3×3（大小由输入点的特征维度决定）的旋转矩阵，与前面的n×3矩阵相乘。

经过mlp的特征升维后，再次进行矫正，为了避免陷入局部最小值，此旋转矩阵还要加一个正则化惩罚项（如下式子），使其接近于一个正交矩阵，否则特征会退化。但在点云配准或补全任务中，T-net要去除

（3）mlp（多层感知器）：进行逐点的线性变换，满足了当输入和输出相同时的置换不变性。可看作全链接层，对输入的每一个点都做全链接（升维），是通过共享权重的卷积实现的，第一层卷积核大小是1x3（因为每个点的维度是xyz），之后的每一层卷积核大小都是1x1，每个点都扩充到1024维的特征，此时特征是冗余的，还需要进行max pooling操作

分类：得到整体特征输出1×k（k为每个类别的概率）

（4）max pooling：还可以用average pooling、weighted average pooling代替（但效果不如max pooling），对得到的n×1024特征的每一列都提取一个最大值，形成1×1024的全局特征向量，再通过mlp映射为k分类（k是输出的类别数）

分割：得到各个点的特征输出n×m(m为每个part的概率)，实质是对每个点进行分类

（5）将每个点的特征与求得的全局特征加起来，通过mlp映射为m个part

6.鲁棒性分析

对于任何输入数据集，都存在一个关键集和一个最大集，在此之间的任何集合，其网络输出都一样，即模型对输入数据在有噪声和有数据损坏的情况都是鲁棒的。

二、PointNet++

b站原作者汇报：将门创投 | 斯坦福大学在读博士生祁芮中台：点云上的深度学习及其在三维场景理解中的应用_哔哩哔哩_bilibili

1.背景

PointNet的不足：MLP对每个点升维，max pooling表示全局特征，本质上对点的操作要么是单点要么是所有点，没有局部的概念。很难对精细的特征进行学习（分割有难度），同时存在平移不变性的局限（经过平移，点的坐标发生变化，全局特征随之变化，导致最终分类等结果不同）。

2.核心思想

（1）通过最远点采样选取中心坐标，划分有重叠的局部区域（簇），从而保证每个分区有相同的结构，要保证每个簇内点的个数都相同，若点数不够，则复制离中心点最近的点直至满足数量，若点数过多，则通过计算所有点离中心点的距离，通过排序去除距离大的那些点。可以把不同半径不同样本个数得到的特征拼接起来

（2）对点集的每个小区域(放在局部坐标系下，实现平移不变性)使用pointnet提取特征，类似于在CNN中利用卷积块进行特征提取

?（3）提取特征之后得到一个新的点，具有在全局中的位置信息以及小区域内的几何形状特征，不断对每个区域进行相同操作，会得到一组新的点

3.网络结构分析

经过多次采样、分组、pointnet提取特征，得到最终整体特征，再进行分类和分割

?

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-08-06 10:44:55 更:2022-08-06 10:45:24

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/28 2:15:33-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码