IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> @@@@@PCN Point Completion Network(补全祖宗,tensorflow,pytorch存疑,需要扩展C++)(7.15) -> 正文阅读

[人工智能]@@@@@PCN Point Completion Network(补全祖宗,tensorflow,pytorch存疑,需要扩展C++)(7.15)

文献地址

PCN第一次证明了深度学习在点云补全领域的应用是有效的。

这篇文章提出了PCN,是一个编码器-解码器的组合(端到端的网络),核心工作在于解码器的设计。
对于数据,直接处理原始的点云,**不对基础形状产生结构消耗(例如对称)或注释(例如语义类)?**防止体素化带来的信息丢失。

相关工作(复制网上的)

  • 基于几何信息补全:在没有使用任何外在的数据情况下,从部分输入中使用几何线索来完成shape的补全。
  • 基于对齐补全:通过匹配来自大型形状数据库的模板模型的部分输入来完成形状补全。
  • 基于学习方法补全:使用一个参数化模型(通常是一个深度神经网络)直接映射部分输入到完整的形状完成形状补全。

知乎这篇翻译文章感觉写的还不错,但是4.2 折叠操作没看明白,还是自己把原文看一遍吧。知乎翻译:Point Completion Network

在这里插入图片描述

4. Point Completion Network

编码器获取输入点云X并输出k维特征向量。(k是个什么参数?)
还有下面一段提到自动编码器和本文的编码器有一些区别?自动编码器自动在哪?

在这里插入图片描述
请注意,与自动编码器不同,我们没有明确强制网络保留输出中的输入点。相反,它学习投影从局部观察空间到完整形状空间。

4.1 Point Feature Encoding

编码器负责将输入点云中的几何信息汇总为特征向量v∈ Rk,其中k=1024。(这个特征向量估计也相当于是GRNet那篇论文的F了吧。)

本文的Encoder源于PointNet,采用两个PointNet Layer堆叠而成。
直接引用知乎上那篇译文。
在这里插入图片描述
在这里插入图片描述

F特征和全局特征的的堆叠很像ResNet,在GRNet那篇论文里也特地提到了类似的结构,三次特征采样(Cubic Feature Sampling)。GRNet阅读笔记

4.2. Multistage Point Generation

在这里插入图片描述

解码器负责从编码器输出的特征向量V中生成输出点云。
解码器的设计结合了全连接解码器(fully-connected decoder)和折叠式解码器(folding-based decoder),两个解码器取其精华达到更好的效果。完全连接的解码器善于预测代表形状的全局几何体。同时,基于折叠的解码器能够很好地逼近光滑表面表示形状的局部几何体。

找了几篇相关的论文笔记(还没看)
论文笔记:《FoldingNet:Point Cloud Auto-encoder via Deep Grid Deformation》

(还需要阅读代码)FoldingNet论文阅读

FoldingNet论文阅读笔记

对于解码器我还是很不熟悉。

将输出点云的过程分为了两个阶段:
第一阶段,输出Ycoarse,将V通过一个全连接网络,将3s输出单元转换为sx3的矩阵。
第二阶段,通过对Ycoarse中的每个点qi,通过折叠操作(folding operation)在以点qi为中心的局部坐标生成一个t=u^2的patch,再将其(添加点qi)转化为全局坐标。结合所有的s patch输出含有n=s*t个点的Ydetail。

这种多级过程在输出密集点云的基础上要比全连接解码器(fully-connected decoder)的参数少,比折叠式解码器(folding-based decoder)更灵活。

下面这张图有些看不明白。
在这里插入图片描述

4.3. Loss Function

损失函数引入了两个函数,倒角距离(Chamfer Distance)和推土距离(Earth Mover’s Distance)。

倒角距离:
在这里插入图片描述
推土距离:
在这里插入图片描述
通过引述上面两个距离函数设计loss函数L(Ycoarse,Ydetail,Ygt)。
在这里插入图片描述
d1由CD和EMD组成,用于计算Ycoarse和Ygt的距离。
ad2由CD组成,用于计算Ydetail和Ygt的距离。这是因为EMD近似方案的O(n)复杂度使得当n较大时,在训练过程中计算成本太高,而CD可以是利用最近邻搜索的有效数据结构(如KDTree)计算O(nlogn)复杂度。(简称省资源,时间复杂度低)

5. Experiments

数据集采用了 ShapeNet数据集。并且使用了Kitti真实雷达扫描的模型来检测效果。

5.1. Data Generation and Model Training

我们使用ShapeNet中的合成CAD模型创建一个包含点云(X,Y)对的大规模数据集。从8个类别中选取30974个模型:飞机、客舱、汽车、椅子、台灯、沙发、桌子、船只。在网格曲面上均匀采样16384个点,生成完整的点云,将2.5维深度图像反投影成三维,生成局部点云。为了使输入分布更接近真实世界的传感器数据,我们使用反投影深度图像作为部分输入,而不是完整点云的子集。对于每个模型,从8个随机分布的视点生成8个局部点云。请注意,部分点云可以有不同的大小。我们保留100个模型用于验证,150个模型用于测试。其余用于训练。我们的所有模型都使用Adam[20]优化器进行训练,50个时期的初始学习率为0.0001,批大小为32。学习率每50K次迭代衰减0.7。

5.2. Completion Results on ShapeNet

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-16 11:17:35  更:2021-07-16 11:19:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 9:52:35-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码