[人工智能] Pointpillars（一）模型结构

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Pointpillars（一）模型结构 -> 正文阅读

[人工智能]Pointpillars（一）模型结构

1.模型结构

? Pointpillars接收点云作为输入，计算输出带方向的3D目标框，模型结构可以分为三个部分：

? （1）Pillar Feature Net：将输入的点云转换为稀疏伪图像;

? （2）2D Backbone：使用2D的CNN Backbone处理伪图像，得到2维特征图;

? （3）SSD Detection Head：使用SSD检测头，检测和回归3D边界框。

1.1 Pointcloud to Pseudo-Image

?????? 为了使用2D CNN backbone，首先需要将3维点云信息转为2D的伪图像。

（1）针对一帧输入点云图，在鸟瞰图下对平面进行网格化分割，z方向不进行分割，得到 $H\times W= P$ 个柱形分割，这样分割出来的柱子叫做pillar;

（2）为了使最终得到整齐的特征图，提取非空的 $P$ 个pillar，在每个pillar中采样 $N$ 个点，当点数大于 $N$ 时进行随机采样，当点数小于 $N$ 时则用 $0$ 补齐，论文中取 $N= 32$ ;

（3）对柱子中的每个点取 $(x,y,z,r,x_{c},y_{c},z_{c},x_{p},y_{p})$ 9个维度，其中 $(x,y,z)$ 为该点的坐标值， $r$ 为反射率， $(x_{c},y_{c},z_{c})$ 为该点到pillar内所有点的平均值的距离， $(x_{p},y_{p})$ 为该点到网格中心点的距离，这样每个点都编码成了 $D= 9$ 个维度。

??????? 这样一个点云样本就表示成 $(D,P,N)$ 尺寸的张量，其中 $P= H\times W$ 为pillar的个数， $D= 9$ 为每个点的维度， $N$ 为每个pillar中点的个数，得到点云的pillar表示的张量。

?（4）得到点云的pillar表示的张量后，需要对其进行特征提取，使用简化的PointNet，对每个pillar中的点使用多层感知机（线性全连接层+BN+Relu）从 $D$ 维学习出 $C$ 维，张量尺寸变为 $(C,P,N)$ ，论文中 $C= 64$ ，随后对每个pillar使用Max Pooling，得到 $(C,P)$ 尺寸的特征图，。

?（5）对 $(C,P)$ 尺寸的特征图，P展开为 $(H,W)$ ，得到 $(C,H,W)$ 形式的特征表示。

1.2 Backbone

??? Backbone包含2个子网络：

（1）a top-down network ，用于生成不同尺度的特征图，网络由一系列的Block（S，L，F）组成，S为stride，L为3×3的卷积，F为输出通道，每个Block都包含BatchNorm和ReLU;网络包含3个Block：Block1（S，4，C），Block2（2S，6，2C），Block3（4S，6，4C）。

（2）a second network，通过上采样（deconv）和拼接操作得到特征图，top-down网络的每个Block的输出都会进行上采样，Up $(S_{in},S_{out},F)$ 中 $S_{in}$ 为输入stride、 $S_{out}$ 为输出stride，F为输出通道，top-down的每个Block对应的上采样操作：Up1 $(S,S,2C)$ ，Up2 $(2S,S,2C)$ ,Up3 $(4S,S,2C)$ ，使用2D转置卷积得到上采样特征图，随后对特征图进行BN和ReLU操作，所有特征图拼接，得到最终的特征图。