中文标题:Vote3Deep:使用高效卷积神经网络在 3D 点云中进行快速对象检测
作者:Martin Engelcke等
期刊:ICRA
年份:2017
引用数:379
开源代码:https://github.com/lijiannuist/Vote3Deep_lidar
摘要
本文提出了一种使用卷积神经网络 (CNN) 在 3D 点云中本地检测对象的计算高效方法。特别是,这是通过利用以特征为中心的投票方案来实现新颖的卷积层来实现的,这些卷积层明确地利用了输入中遇到的稀疏性。为此,我们检查了不同架构的准确性和速度之间的权衡,并另外建议对过滤器激活使用 L1 penalty,以进一步鼓励中间表示的稀疏性。据我们所知,这是第一个提出稀疏卷积层和 L1 正则化以高效大规模处理 3D 数据的工作。我们证明了我们的方法在 KITTI 对象检测基准上的有效性,并表明只有三层的 Vote3Deep 模型在基于激光和基于激光视觉的方法中以高达 40% 的幅度优于先前的技术水平,同时保持在处理时间方面极具竞争力。
Fig.1 将 Vote3Deep 应用到来自 KITTI 数据集的一个看不见的点云的结果,以及相应的图像供参考。 CNN 通过投票在 3D 中原生应用稀疏卷积。该模型可以检测汽车(红色)、行人(蓝色)和骑自行车的人(洋红色),甚至是远距离,并分配按类别大小的边界框(绿色)。最好用彩色观看。
1 介绍
3D 点云数据在自动驾驶等移动机器人应用中无处不在,在这些应用中,高效、稳健的目标检测对于规划和决策至关重要。最近,计算机视觉一直在通过使用卷积神经网络 (CNN)(例如 [1]、[2]、[3]、[4])进行转型。然而,处理 3D 点云的方法还没有经历类似的突破。我们将这种缺乏进展归因于第三空间维度引入的计算负担。由此产生的输入和中间表示大小的增加使得 CNN 从 2D 视觉应用程序到点云中的原生 3D 感知的幼稚转移对于大规模应用程序是不可行的。因此,以前的方法倾向于首先将数据转换为 2D 表示,其中附近的特征在物理 3D 空间中不一定相邻——需要模型来恢复这些几何关系。
然而,与图像数据相比,移动机器人中遇到的典型点云在空间上是稀疏的,因为大多数区域都未被占用。这个事实在 [5] 中得到了利用,其中作者提出了 Vote3D,这是一种利用这些点云固有的稀疏性的以特征为中心的投票算法。计算成本仅与占用的单元格数量成正比,而不与 3D 网格中的单元格总数成正比。 [5] 证明了投票方案与密集卷积操作的等效性,并通过将点云离散为 3D 网格并使用线性支持向量机 (SVM) 执行详尽的 3D 滑动窗口检测来证明其有效性。因此,[5] 在来自流行的 KITTI Vision Benchmark Suite [6] 的对象检测任务中,在检测点云中的汽车、行人和骑自行车的人时,在性能和处理速度方面都达到了之前的最先进水平。
受 [5] 的启发,我们建议利用以特征为中心的投票来构建高效的 CNN 以在 3D 中本地检测点云中的对象——也就是说,不首先将输入投影到低维空间或限制搜索空间检测器(图 1)。与非参数方法相比,这使我们名为 Vote3Deep 的方法能够学习高容量非线性模型,同时在测试时提供恒定时间评估。此外,为了在整个 CNN 堆栈中增强与稀疏输入相关的计算优势,我们展示了通过在训练期间强加 L1 模型正则化器来鼓励中间层输入稀疏的好处。
据我们所知,这是第一个提出基于投票和 L1 正则化的稀疏卷积层的工作,用于大规模使用 CNN 有效处理全 3D 点云。特别是,本文的贡献可以总结如下:
- 通过利用投票机制来利用输入数据的固有稀疏性,构建高效的卷积层作为基于 CNN 的点云处理的基本构建块;
- 使用整流线性单元和 L1 稀疏惩罚来特别鼓励中间表示中的数据稀疏性,以便在整个 CNN 堆栈中利用稀疏卷积层。
我们证明,在流行的 KITTI 对象检测基准上考虑的所有类别中,只有三层的 Vote3Deep 模型在纯基于激光的方法中实现了最先进的性能。 Vote3Deep 模型在基于 3D 点云的对象检测中的平均精度超过了先前最先进的技术,最高可达 40%,而在检测速度方面仅运行稍慢。
2 相关工作
许多工作已尝试在 3D 点云数据的上下文中应用 CNN。 [7] 中基于 CNN 的方法通过将点云投影到 2D 深度图中,并带有一个额外的通道用于表示离地面点的高度,从而在 KITTI 上获得了与 [5] 相当的汽车检测性能。他们的模型预测检测分数并回归到边界框。然而,向特定视点的投影会丢弃有价值的信息,这尤其有害,例如在拥挤的场景中。它还要求网络过滤器学习关于深度的局部依赖性,这些信息在 3D 表示中很容易获得,并且可以通过稀疏卷积有效地提取。
从点云获得的密集 3D 占用网格在 [8] 和 [9] 中使用 CNN 进行处理。最小单元格大小为 0.1m,[8] 报告在 GPU 上以 6ms 的速度对网格大小为 32×32×32 单元格的单个作物进行分类。类似地,[9] 中报告了着陆区检测的处理时间为每立方米 5 毫秒。由于 3D 点云通常大于 60m × 60m × 5m,这将导致每帧 60×60×5×5×10?3= 90 秒的处理时间,这不符合机器人应用中通常遇到的速度要求.
在 [10] 和 [11] 中可以找到一种利用稀疏表示的替代方法,其中稀疏卷积分别应用于相对较小的 2D 和 3D 裁剪。虽然卷积核仅应用于稀疏特征位置,但所提出的算法仍然必须考虑取值为 0 或恒定偏差的相邻值,从而导致不必要的操作和内存消耗。 [12] 中介绍了另一种执行稀疏卷积的方法,它使用了“permutohedral格子”,但只考虑了相对较小的输入,与我们的工作相反。
CNN 也已应用于生物医学图像分析中的密集 3D 数据(例如 [13]、[14]、[15])。 [13] 中使用了残差网络 [4] 的 3D 等价物进行脑图像分割。 [14] 中提出了一个具有两个阶段的级联模型,用于检测脑微出血。 [15] 中建议了三个 CNN 的组合。每个 CNN 处理不同的 2D 平面,三个流在最后一层连接。这些系统在相对较小的输入上运行,在某些情况下,使用 GPU 加速处理单个帧需要一分钟以上的时间。
3 方法
本节描述了卷积神经网络在从可变大小的稀疏 3D 输入网格中预测检测分数的应用。作为网络的输入,点云被离散为稀疏的 3D 网格,如 [5] 中所示。对于包含非零点数的每个单元格,根据单元格中点的统计信息提取特征向量。特征向量包含一个二进制占用值、反射率值的均值和方差以及三个形状因子。不存储空白空间中的单元格,这导致了稀疏表示。
我们采用 [5] 中的投票方案在这个原生 3D 表示上执行稀疏卷积,然后是 ReLU 非线性,它返回一个新的稀疏 3D 表示。这个过程可以像在传统 CNN 中一样重复和堆叠,输出层预测检测分数。
与 [5] 类似,将 CNN 应用于 N 个并行线程中 N 个不同角度方向的点云,以在计算时间增加最少的情况下处理不同方向的对象。在 3D 空间中使用非最大抑制 (NMS) 修剪重复检测。 3D 中的 NMS 能够更好地处理彼此后面的对象,因为 3D 边界框的重叠少于它们的 2D 投影。
基于 3D 空间中同一类对象实例的边界框大小相似的前提,我们假设每个类都有一个固定大小的边界框,这样就不需要回归边界框的大小。我们根据训练集上第 95 个百分点的真实边界框大小为每个感兴趣的类别选择 3D 边界框尺寸。
网络的感受野应至少与对象的边界框一样大,但不能太大,否则会浪费计算时间。因此,我们采用了几个特定于类的网络,这些网络可以在测试时并行运行,每个网络具有不同的总感受野大小,具体取决于对象类。原则上,可以使用单个网络计算多个类别的检测分数;留给未来工作的任务。
Fig.2 在没有偏差的稀疏 2D 示例输入上的投票过程的说明。通过沿每个维度翻转卷积权重来获得投票权重。标准卷积在输入的每个位置应用过滤器,而等效的投票过程只需要在每个非零位置应用即可计算相同的结果。 Vote3Deep 将投票程序应用于具有多个特征图的 3D 输入,而不是具有单个特征的 2D 网格。对于完整的数学论证,读者可以参考 [5]。最好用彩色观看。
A. 通过投票进行稀疏卷积
当在离散点云上运行密集的 3D 卷积时,大部分计算时间都被浪费了,因为大多数操作都是乘以零。与构成基于图像的 CNN 的基础的 2D 卷积相比,额外的第三个空间维度使该过程在计算上更加昂贵。
利用有意义的计算仅在 3D 特征不为零的情况下发生的见解,[5] 引入了以特征为中心的投票方案。该算法的基础是让每个非零输入特征向量向输出层中其周围单元(由滤波器的感受野定义)投出一组由滤波器权重加权的选票。通过沿每个空间维度翻转卷积滤波器内核来获得投票权重。最终的卷积结果是通过累积落入输出每个单元格的投票获得的(图 2)。
这个过程可以正式表述如下。不失一般性,假设我们有一个 3D 卷积滤波器,在网络层
c
c
c 中具有奇值核维度,对单个输入特征进行操作,滤波器权重表示为
w
c
∈
R
(
2
I
+
1
)
×
(
2
J
+
1
)
×
(
2
K
+
1
)
w^c∈R^{(2I+1)×(2J+1)×(2K+1)}
wc∈R(2I+1)×(2J+1)×(2K+1)?。然后,对于输入网格
h
c
?
1
∈
R
L
×
M
×
N
h^{c?1} \in R^{L×M×N}
hc?1∈RL×M×N,位置
(
l
,
m
,
n
)
(l, m, n)
(l,m,n) 处的卷积结果由下式给出:
z
l
,
m
,
n
c
=
∑
i
=
?
I
I
∑
j
=
?
J
J
∑
k
=
?
K
K
W
i
,
j
,
k
c
h
l
+
i
,
m
+
j
,
n
+
k
c
?
1
+
b
c
(1)
z_{l,m,n}^c = \sum_{i=-I}^{I} \sum_{j=-J}^J \sum_{k=-K}^K W_{i,j,k}^c h_{l+i,m+j,n+k}^{c-1}+b^c \tag{1}
zl,m,nc?=i=?I∑I?j=?J∑J?k=?K∑K?Wi,j,kc?hl+i,m+j,n+kc?1?+bc(1) 其中
b
c
b^c
bc 是应用于网格中所有单元格的偏差值。此操作需要应用于输入网格中的所有
L
×
M
×
N
L × M × N
L×M×N 位置,以进行常规密集卷积。与此相反,给定所有非零单元格的单元格索引集合
Φ
=
{
(
l
,
m
,
n
)
?
h
l
,
m
,
n
c
?
1
≠
0
}
\Phi = \{(l, m, n) \forall h^{c?1}_{l,m,n} \neq 0\}
Φ={(l,m,n)?hl,m,nc?1??=0}?,卷积可以重铸为以特征为中心的投票操作,每个输入单元格投票以根据以下条件增加相邻单元格位置的值:
z
l
+
i
,
m
+
j
,
n
+
k
c
=
z
l
+
i
,
m
+
j
,
n
+
k
c
+
w
?
i
,
?
j
,
?
k
c
h
l
,
m
,
n
c
?
1
(2)
z_{l+i,m+j,n+k}^c = z_{l+i,m+j,n+k}^c+w_{-i,-j,-k}^c h_{l,m,n}^{c-1} \tag{2}
zl+i,m+j,n+kc?=zl+i,m+j,n+kc?+w?i,?j,?kc?hl,m,nc?1?(2) 对于所有元组,
(
l
,
m
,
n
)
∈
Φ
(l,m,n) \in \Phi
(l,m,n)∈Φ,
{
i
,
j
,
k
∈
Z
∣
i
∈
[
?
I
,
I
]
,
j
∈
[
?
J
,
J
]
,
k
∈
[
?
K
,
K
]
}
\{ i,j,k \in Z|i \in [-I,I], j\in[-J,J],k \in [-K,K] \}
{i,j,k∈Z∣i∈[?I,I],j∈[?J,J],k∈[?K,K]}
投票输出通过 ReLU 非线性传递,它会丢弃非正特征,如下一小节所述。至关重要的是,偏差被限制为非正的,因为单个正偏差将返回一个输出网格,其中几乎每个单元格都被一个特征向量占据,因此消除了稀疏性。因此,偏置
b
c
b^c
bc 因此只需要添加到每个非空输出单元格。
使用这种稀疏投票方案,过滤器只需要应用于输入网格中被占用的单元格,而不是在整个网格上进行卷积。该算法在 [5] 中有更详细的描述,包括形式证明以特征为中心的投票等效于穷举卷积。
B. 使用 ReLU 保持稀疏性
在所有层中执行快速投票的能力取决于对每个单独层的输入的稀疏性假设。虽然输入点云是稀疏的,但非空单元的区域被每个连续的卷积层扩大,大约是该层中相应过滤器的感受野大小。因此,选择有助于保持每个卷积层输入稀疏性的非线性激活函数至关重要。
这是通过在稀疏卷积层之后应用 [16] 中提倡的整流线性单元 (ReLU) 来实现的。 ReLU 激活可以写为:
h
c
=
m
a
x
(
0
,
z
c
)
(3)
h^c = max(0,z^c) \tag{3}
hc=max(0,zc)(3)
z
c
z^c
zc? 是由稀疏卷积计算的
c
c
c 层 ReLU 非线性的输入,
h
c
h^c
hc 是输出,表示后续稀疏中间表示中的隐藏激活。
在这种情况下,只有值大于零的特征才会被允许在下一个稀疏卷积层投票。除了使网络能够学习非线性函数近似值并因此增加其表示能力外,ReLU 通过丢弃负特征值来有效地执行阈值操作,这有助于保持中间表示的稀疏性。最后,与其他非线性相比,ReLU 的另一个优势是它们的计算速度很快。
4 训练
由于使用固定大小的边界框,网络可以直接在正负示例的 3D 裁剪上进行训练,其尺寸等于架构指定的感受野大小。
负训练示例是通过在固定数量的训练时期后定期执行硬负挖掘来获得的。特定于类的网络是二元分类器,由于其最大边距属性,我们选择线性铰链损失进行训练。
A. 线性铰链损耗
给定输出检测分数
y
^
∈
R
\hat{y} \in R
y^?∈R,区分正样本和负样本的类标签
y
∈
{
?
1
,
1
}
y \in \{ ?1,1\}
y∈{?1,1} 以及表示为
θ
\theta
θ 的网络参数,铰链损失公式为:
L
(
θ
)
=
max
?
(
0
,
1
?
y
^
?
y
)
(4)
L(\theta) = \max(0,1-\hat{y} \cdot y) \tag{4}
L(θ)=max(0,1?y^??y)(4) 对于得分超过 1 的正样本和得分低于 -1 的负样本,等式 4 中的损失为零。因此,铰链损失使样本分数远离由区间 [-1,1] 给出的余量。与标准 CNN 一样,L1 铰链损失可以通过网络反向传播以进行训练。
B.L1稀疏惩罚
虽然 ReLU 非线性有助于保持中间表示的稀疏性,但我们建议包括一个额外的正则化器来激励网络丢弃无信息特征并在整个 CNN 堆栈中增加稀疏性。
L1 损失已被证明会导致值恰好为零的稀疏表示 [17],这正是该模型的要求。虽然可以使用检测阈值调整输出层的稀疏性,但我们通过使用每个特征激活的 L1 范数加入惩罚项来鼓励中间层的稀疏性。
我们根据每一层中特征图的空间维度对这个 L1 损失进行归一化。这使得稀疏惩罚的影响较少依赖于给定参数设置的输入大小。
5 实验
A.数据集
我们使用著名的 KITTI Vision Benchmark Suite [6] 来训练和评估我们的检测模型。该数据集由从移动车辆记录的同步立体相机和激光雷达帧组成,带有八个不同对象类的注释,显示了具有不同外观的各种道路场景。我们只使用 3D 点云数据来训练和测试模型。
KITTI 测试集中有 7,518 个帧的标签不公开。标记的训练数据由 7,481 帧组成,我们将它们分成两组用于训练和验证(分别为 80% 和 20%)。目标检测基准考虑三类进行评估:汽车、行人和骑自行车的人,28,742; 4,487;和 1,627 个训练标签。
B.评估
官方 KITTI 测试集的基准评估是在 2D 图像空间中进行的。因此,我们使用提供的校准文件将我们的 3D 检测投影到 2D 图像平面中,并丢弃落在图像之外的任何检测。
KITTI 基准测试根据边界框大小、对象截断和遮挡来区分简单、中等和困难的测试类别。硬测试用例考虑最大数量的正例,而对于中等和简单的测试用例,最困难的示例随后被忽略。官方排名基于中等情况的平均准确率 (AP)。
在描述了训练过程之后,我们展示了三个实验的结果。首先,我们对验证集进行模型比较(5-D节)。其次,根据模型比较的结果,我们为每个类选择一个模型,并在官方 KITTI 测试集上报告结果(5-E节)。最后,我们比较了使用和不使用 L1 稀疏惩罚训练的模型的计时结果(5-F节)。
C.训练
这些网络接受了正面和负面示例的 3D 裁剪训练。正面和负面的数量最初与在不与任何正面重叠的位置从训练数据中随机提取的负面平衡。
为了提高泛化能力并补偿输入在空间和角分辨率方面离散化的事实,训练数据通过将原始正面正训练示例平移小于3D 网格单元并随机旋转它们的角度小于角度箱的分辨率。
通过在训练集中的完整点云上运行当前模型,每十个时期执行一次硬负挖掘。在每一轮硬负挖掘中,每帧得分最高的十个误报被添加到训练集中。
过滤器权重按照 [18] 中的方式初始化,网络使用随机梯度下降训练 100 个 epoch,动量项为 0.9,批量为 16,恒定学习率为 10-3,L2 权重衰减为 10-4。选择验证集上具有最高 AP 的 epoch 中的模型进行模型比较和测试提交。
对于计时实验,我们观察到,从验证集上具有最高 AP 的时期中选择模型往往倾向于在中间表示中具有相对较低稀疏性的模型。因此,在完整的 100 个训练时期之后的模型用于计时实验,以进行公平的比较。
我们实现了一个用于训练和测试的自定义 C 库。对于最大的模型,在具有 16 个内核的集群 CPU 节点上训练大约需要三天时间,其中批处理中的每个示例都在单独的线程中处理。
Table 1 模型比较中使用的架构的每个层的内核尺寸 - “RF”指标,输出层的接收域取决于对象类
Fig.3 表1中“模型 D”架构的图示。输入
x
x
x(绿色)和层
c
c
c 的中间表示
h
c
h^c
hc?(蓝色)是稀疏的 3D 网格,其中每个占据的空间位置都包含一个特征向量(实心立方体)。带有滤波器权重
w
c
w^c
wc 的稀疏卷积在 3D 中本地执行以计算预测(红色)。最好按颜色观看。
Fig.4 表1中架构的模型比较,显示了中等难度级别的平均精度。对于所有三个类别,具有两层或三层的非线性模型始终优于我们内部验证集的线性基线模型。随着隐藏层中过滤器数量的增加,性能继续提高,但与线性基线和最小多层模型之间的大范围相比,这些增益是递增的。最好用彩色观看。
D.模型比较
在机器人技术的背景下,快速的检测速度尤为重要。由于更大、更具表现力的模型需要更高的计算成本并因此以更慢的速度运行,本节研究模型容量和验证集检测性能之间的权衡。表1中总结的五种架构(最多三层和不同的过滤器配置)相互比较。 “模型 D”架构在图 3 中作为示例进行了说明。
较小的 3×3×3 和 5×5×5 内核用于较低层,然后是 ReLU 非线性。架构的设计使总感受野略大于特定于类的边界框。网络输出由线性层计算,该层实现为卷积滤波器,其内核大小为给定的对象类提供所需的感受野大小。
从图 4 中可以看出,非线性多层网络明显优于线性基线,这与 [5] 相当。首先,这表明增加模型的复杂性和表现力对于检测点云中的对象非常有帮助。
与仅使用八个过滤器实现的对基线的巨大改进相比,增加隐藏层中卷积过滤器的数量时所产生的收益是适中的。类似地,增加滤波器内核的感受野,同时保持网络的总感受野相同,并不表示性能有显着提高。
这些较大的模型可能没有充分规范化。另一个可能的解释是,3D 数据的易解释性使即使是相对较小的模型也能捕获输入表示中的大部分变化,这对于解决任务来说是有用的。
Fig.5 KITTI 测试集上评估结果的 Precision-Recall 曲线。用于汽车的“模型 B”和用于行人和骑自行车的人的“模型 D”,均在隐藏层中具有 8 个过滤器并且经过无稀疏惩罚的训练,用于提交给官方测试服务器。最好用彩色观看。
Table 2 仅使用点云的方法在 KitTI 测试集上的 AP IN %(撰写本文时)
Table 3 用于同时使用点云和图像的方法的 KitTI 测试集上的 AP IN %,如 * 所示(在撰写本文时)
E.测试结果
模型对比表明,增加过滤器数量或核大小并不会显着提高准确率,同时不可避免地会降低检测速度。因此,我们选择在测试提交的每个隐藏层中将自己限制为 8 个 3×3×3 过滤器。
由于模型可以在部署期间并行运行,因此理想情况下它们应该以大致相同的检测速度运行。由于汽车的物理尺寸较大,与行人和骑自行车的人相比,相应的网络在输出层需要更大的滤波器核来实现所需的总感受野,对检测速度有负面影响。因此,为了提交给 KITTI 测试服务器,我们为汽车选择了两层的“模型 B”,行人和骑自行车的人选择了三层的“模型 D”。这些模型在 KITTI 测试集上的 PR 曲线如图 5 所示。
在撰写本文时,Vote3Deep 的性能与其他领先的点云对象检测方法进行了比较。 Vote3Deep 在该类别中为所有三个类别和所有三个难度级别建立了新的最先进的性能。对于骑自行车的人来说,性能提升尤其显着,在简单的测试用例中,余量接近 40%,在其他两个测试用例中,AP 增加了一倍多。
Vote3Deep 目前在 CPU 上运行,比 [5] 慢大约两倍,几乎和 [7] 一样快,后者依赖于 GPU 加速。我们预计稀疏卷积层的 GPU 实现将进一步提高检测速度。
我们还将 Vote3Deep 与在撰写表 III 时利用点云和图像数据的方法进行了比较。尽管仅使用点云数据,但 V ote3Deep 在大多数测试用例中的性能仍然优于这些([20]、[21]),而在其余测试用例中仅稍差一点,检测速度要快得多。对于所有三个对象类,V ote3Deep 在硬测试用例上实现了最高的 AP,它考虑了最大数量的正面真实对象。
总体而言,与视觉中使用的非常深的网络(例如 [2]、[3]、[4])相比,这些相对较浅的网络在没有任何最近开发的技巧的情况下进行训练,其表现力足以实现显着的性能提升。有趣的是,骑自行车的人检测从 CNN 的表现力中获益最多,即使这个类的训练样本数量最少。我们推测,与行人和汽车相比,骑自行车的人在 3D 中具有更独特的形状,它们分别更容易与极点或垂直平面混淆,并且 Vote3Deep 模型可以特别好地利用这种复杂性,尽管积极训练的数量很少例子。
Table 4 以毫秒为单位的检测速度和 L1 稀疏惩罚不同值的平均精度
F.时序和稀疏性
来自测试提交的三个模型也使用不同的 L1 稀疏惩罚值进行训练,以检查惩罚对表4 中验证集的中等测试用例的检测速度和准确性的影响。每帧检测时间的平均值和标准偏差是在 200 帧上测量的。
与是否采用稀疏惩罚无关,行人的检测速度最快,因为与其他两类相比,网络的感受野更小。用于汽车的两层“Model B”比用于自行车的三层“Model D”跑得更快。
在训练期间施加 L1 稀疏性惩罚时,测试时的检测速度提高了近 40%,但准确率下降可忽略不计。当应用 10-1 的大惩罚时,行人和骑自行车者模型的激活在训练期间崩溃为零。然而,通过较小的惩罚,检测速度提高了大约 15%。
对于最快的自行车手模型,与基线相比,平均精度降低了 5%。然而,对于行人,我们注意到没有惩罚的模型在训练完整 100 个 epoch 时开始过度拟合。在这种情况下,稀疏惩罚有助于规范模型并对模型的准确性产生有益影响。
值得注意的是,稀疏惩罚被证明对于提高可以应用更大惩罚的汽车的检测速度最有用。我们推测,中间层数量的减少以及更大的感受野都有助于模型学习明显更稀疏但仍然具有高度信息量的中间表示。
虽然结果清楚地表明 L1 稀疏惩罚对检测速度有有益影响,但考虑到训练算法的随机性,对该增益的统计数据进行更严格的调查将是有用的。我们将这项调查留作未来的工作。
6 结论
这项工作基于 [5] 中介绍的投票方案,使用由稀疏卷积层构建的 CNN 快速执行点云中的对象检测。凭借学习分层表示和非线性决策边界的能力,在 KITTI 基准上建立了一种新的技术状态,用于检测点云中的对象。在大多数测试用例中,Vote3Deep 还优于其他利用点云和图像信息的方法。未来可能的方向包括更底层的输入表示以及投票算法的 GPU 实现。
参考文献
[1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” Advances In Neural Information Processing Systems, pp. 1–9, 2012.
[2] K. Simonyan and A. Zisserman, “V ery deep convolutional networks for large-scale image recognition,” ICLR, pp. 1–14, 2015. [Online]. Available: http://arxiv.org/abs/1409.1556
[3] C. Szegedy, W. Liu, Y . Jia, P . Sermanet, S. Reed, D. Anguelov, D. Erhan, V . V anhoucke, and A. Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 07-12-June, 2015, pp. 1–9.
[4] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” arXiv preprint arXiv:1512.03385, vol. 7, no. 3, pp. 171–180, 2015. [Online]. Available: http://arxiv.org/pdf/1512.03385v1.pdf
[5] D. Z. Wang and I. Posner, “V oting for V oting in Online Point Cloud Object Detection,” Robotics Science and Systems, 2015.
[6] A. Geiger, P . Lenz, and R. Urtasun, “Are we ready for autonomous driving? the KITTI vision benchmark suite,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2012, pp. 3354–3361.
[7] B. Li, T. Zhang, and T. Xia, “V ehicle Detection from 3D Lidar Using Fully Convolutional Network,” arXiv preprint arXiv:1608.07916, 2016. [Online]. Available: https://arxiv.org/abs/1608.07916
[8] D. Maturana and S. Scherer, “V oxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition,” IROS, pp. 922–928, 2015.
[9] ——, “3D Convolutional Neural Networks for Landing Zone Detection from LiDAR,” International Conference on Robotics and Automation, no. Figure 1, pp. 3471–3478, 2015.
[10] B. Graham, “Spatially-sparse convolutional neural networks,” arXiv Preprint arXiv:1409.6070, pp. 1–13, 2014. [Online]. Available: http://arxiv.org/abs/1409.6070
[11] ——, “Sparse 3D convolutional neural networks,” arXiv preprint arXiv:1505.02890, pp. 1–10, 2015. [Online]. Available: http://arxiv.org/abs/1505.02890
[12] V . Jampani, M. Kiefel, and P . V . Gehler, “Learning Sparse High Dimensional Filters: Image Filtering, Dense CRFs and Bilateral Neural Networks,” in IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016.
[13] H. Chen, Q. Dou, L. Y u, and P .-A. Heng, “V oxResNet: Deep V oxelwise Residual Networks for V olumetric Brain Segmentation,” arXiv preprint arXiv:1608.05895, 2016. [Online]. Available: http://arxiv.org/abs/1608.05895
[14] Q. Dou, H. Chen, L. Y u, L. Zhao, J. Qin, D. Wang, V . C. Mok, L. Shi, and P . A. Heng, “Automatic Detection of Cerebral Microbleeds From MR Images via 3D Convolutional Neural Networks,” IEEE Transactions on Medical Imaging, vol. 35, no. 5, pp. 1182–1195, 2016. [Online]. Available: http://ieeexplore.ieee.org
[15] A. Prasoon, K. Petersen, C. Igel, F. Lauze, E. Dam, and M. Nielsen, “Deep feature learning for knee cartilage segmentation using a triplanar convolutional neural network,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol. 8150 LNCS, no. PART 2, 2013, pp. 246–253.
[16] X. Glorot, A. Bordes, and Y . Bengio, “Deep Sparse Rectifier Neural Networks,” AISTATS, vol. 15, pp. 315–323, 2011.
[17] K. P . Murphy, Machine Learning: A Probabilistic Perspective. MIT press, 2012, ch. 13, pp. 423–480.
[18] K. He, X. Zhang, S. Ren, and J. Sun, “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification,” arXiv preprint arXiv:1502.01852, pp. 1–11, 2015. [Online]. Available: https://arxiv.org/abs/1502.01852
[19] J. Behley, V . Steinhage, and A. B. Cremers, “Laser-based segment classification using a mixture of bag-of-words,” in IEEE International Conference on Intelligent Robots and Systems, 2013, pp. 4195–4200.
[20] A. Gonzalez, G. Villalonga, J. Xu, D. V azquez, J. Amores, and A. M. Lopez, “Multiview random forest of local experts combining RGB and LIDAR data for pedestrian detection,” in IEEE Intelligent V ehicles Symposium, Proceedings, vol. 2015-Augus, 2015, pp. 356–361.
[21] C. Premebida, J. Carreira, J. Batista, and U. Nunes, “Pedestrian detection combining RGB and dense LIDAR data,” in IEEE International Conference on Intelligent Robots and Systems, 2014, pp. 4112–4117.
|