| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> VoxelNet---端到端的3D目标检测 -> 正文阅读 |
|
[人工智能]VoxelNet---端到端的3D目标检测 |
VoxelNet: 基于体素的端到端目标检测背景分析基于点云的3D目标检测是各领域如今所关注的重点,与图像的检测不同,LiDAR 提供可靠的深度信息,可用于准确定位对象并表征其形状。但由于 3D 空间的非均匀采样、传感器的有效范围、遮挡和相对姿态等因素,LiDAR 点云稀疏且点密度变化很大。 体素图片是二维的,单个点叫像素。同理,三维点云中可以想象用一个大的长方体将所有的点云容纳进去,这个长方体就是个大体素,但是点云是稀疏的,所以又要将大的体素化为一个个小的体素进行更加高效的处理。VoxelNet就是在前期运用了Voxel Partition的手段进行处理,之后以端到端的方式从点云中学习判别性特征表示并预测准确的 3D 边界框,避免了手动特征工程引入的信息瓶颈。 算法分析VoxelNet的架构主要由三部分组成:
特征学习网络( Feature learning network)这一模块的操作主要就是进行点云的处理。如上图所示又分为5个步骤:体素分块(Voxel Partition),点云分组(Grouping),随机采样(Random Sampling),多层的体素特征编码(Stacked Voxel Feature Encoding),稀疏张量表示(Sparse Tensor Representation)。 体素分块(Voxel Partition)如上面介绍体素概念一样,先用大的3D空间容纳所有的点云数据,其深度、高度和宽度分别为 ( D , H , W )。再在其内部自定义体素尺寸( v D v_{D} vD?, v H v_{H} vH?, v W v_{W} vW?),则整个数据的三维体素化的结果在各个坐标上生成的体素格(voxel grid)的个数为:( D v D , H v H , W v W \frac{D}{v_{D}},\frac{H}{v_{H}},\frac{W}{v_{W}} vD?D?,vH?H?,vW?W?)。 点云分组(Grouping)分组就是将所有的点云数据划分到所定义的体素中,但是因为点云是稀疏的,并且在在整个空间中具有高度可变的点密度,所以分组之后体素中的点云个数各不相同,甚至有些体素中就没有点云。 随机采样(Random Sampling)随机采样就是抽取上面所定义的体素。因为分出的体素比较多,而且很多就没有点云数据,所以随机采样可以减少计算量,有效降低因为点云数据不平衡带来的信息偏差。另外论文中定义了一个体素中所包含最大点云数量T。 多层的体素特征编码(Stacked Voxel Feature Encoding)这一部分就是对点云进行特征编码,Voxel Feature Encoding简称VFE,是本文的核心思想。
之后将处理过的所有点进行fully connected network
稀疏张量表示(Sparse Tensor Representation)虽然一次lidar扫描包含接近10万个点,但是超过90%的体素格都是空的,使用稀疏张量来描述非空体素格在于能够降低反向传播时的内存和计算消耗。 卷积中间层(Convolutional middle layers)我们使用ConvMD ( c i n , c o u t , k , s , p ) (c_{in},c_{out},k,s,p) (cin?,cout?,k,s,p)来表示一个M维卷积算子,其中 c i n c_{in} cin?和 c o u t c_{out} cout?是输入和输出通道的数量,k,s和p是m维向量分别根据内核大小、步幅大小和填充大小来确定。当m维的大小相同时,我们使用一个标量来表示例如k=(k,k,k)的大小。 区域提案网络(Region proposal network)RPN 这个概念来源于 Faster R-CNN 系列,VoxelNet 中也运用到了 RPN,但经过了改良。 损失函数(loss function)将三维真实框的参数定义为:
各个回归目标的计算如图所示: 则最终的损失函数为: 高效运行( Efficient Implementation)gpu被优化用于处理致密张量结构。但是点云分布稀疏。论文设计了一种将点云转换为密集张量结构的方法,其中堆叠的VFE操作可以在点和体素之间并行处理。 参考文献: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 19:34:25- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |