IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Pointpillars(一)模型结构 -> 正文阅读

[人工智能]Pointpillars(一)模型结构

1.模型结构

? Pointpillars接收点云作为输入,计算输出带方向的3D目标框,模型结构可以分为三个部分:

? (1)Pillar Feature Net:将输入的点云转换为稀疏伪图像;

? (2)2D Backbone:使用2D的CNN Backbone处理伪图像,得到2维特征图;

? (3)SSD Detection Head:使用SSD检测头,检测和回归3D边界框。

1.1 Pointcloud to Pseudo-Image

?????? 为了使用2D CNN backbone,首先需要将3维点云信息转为2D的伪图像。

(1)针对一帧输入点云图,在鸟瞰图下对平面进行网格化分割,z方向不进行分割,得到H\times W= P个柱形分割,这样分割出来的柱子叫做pillar;

(2)为了使最终得到整齐的特征图,提取非空的P个pillar,在每个pillar中采样N个点,当点数大于N时进行随机采样,当点数小于N时则用0补齐,论文中取N= 32;

(3)对柱子中的每个点取(x,y,z,r,x_{c},y_{c},z_{c},x_{p},y_{p})9个维度,其中(x,y,z)为该点的坐标值,r为反射率,(x_{c},y_{c},z_{c})为该点到pillar内所有点的平均值的距离,(x_{p},y_{p})为该点到网格中心点的距离,这样每个点都编码成了D= 9个维度。

??????? 这样一个点云样本就表示成(D,P,N)尺寸的张量,其中P= H\times W为pillar的个数,D= 9为每个点的维度,N为每个pillar中点的个数,得到点云的pillar表示的张量。

?(4)得到点云的pillar表示的张量后,需要对其进行特征提取,使用简化的PointNet,对每个pillar中的点使用多层感知机(线性全连接层+BN+Relu)从D维学习出C维,张量尺寸变为(C,P,N),论文中C= 64,随后对每个pillar使用Max Pooling,得到(C,P)尺寸的特征图,。

?(5)对(C,P)尺寸的特征图,P展开为(H,W),得到(C,H,W)形式的特征表示。

1.2 Backbone

??? Backbone包含2个子网络:

(1)a top-down network ,用于生成不同尺度的特征图,网络由一系列的Block(S,L,F)组成,S为stride,L为3×3的卷积,F为输出通道,每个Block都包含BatchNorm和ReLU;网络包含3个Block:Block1(S,4,C),Block2(2S,6,2C),Block3(4S,6,4C)。

(2)a second network,通过上采样(deconv)和拼接操作得到特征图,top-down网络的每个Block的输出都会进行上采样,Up(S_{in},S_{out},F)S_{in}为输入stride、 S_{out}为输出stride,F为输出通道,top-down的每个Block对应的上采样操作:Up1(S,S,2C),Up2(2S,S,2C),Up3(4S,S,2C),使用2D转置卷积得到上采样特征图,随后对特征图进行BN和ReLU操作,所有特征图拼接,得到最终的特征图。

1.3 Detection Head

???? 使用SSD作为检测网络。将预选框与ground truth进行2D IoU 匹配,Bounding box的高和海拔不参与匹配,但会对高和海拔进行回归。

2. 损失函数

??? 采用与SECOND相同的损失函数,包括定位回归损失L_{loc}、heading损失L_{dir}、分类损失L_{cls}

2.1 位置回归损失 ?

?? Ground truth boxes和anchors定义:(x,y,z,w,l,h,\theta ),表示box的位置、长宽高和heading方向。定位回归残差定义:

???

? ? ?gt表示ground truth,a表示模型预测结果,d^{a}=\sqrt{(w^{a})^{2}+(l^{a})^{2}},定位损失:

2.2 heading损失

?heading损失使用离散方向softmax分类损失。

2.3 目标分类损失

?目标分类损失使用focal loss:

p^{a}为一个anchor的类别概率,设置\alpha = 0.25\gamma = 2

2.4 损失函数

最终的损失函数为:

?N_{pos}为激活的anchor数,设置\beta_{loc} = 2\beta _{cls}=1,\beta _{dir}=0.2

3.训练策略

??? 训练优化器:Adam optimizer

??? 学习率:初始学习率为2*10^{-4},每15个epoch学习率衰减,衰减因子为0.8。

??? 训练总epoch:160

???

??

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-07-17 16:23:46  更:2022-07-17 16:24:36 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 0:34:34-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码