Probabilistic End-to-End V ehicle Navigation in Complex Dynamic Environments with Multimodal Sensor Fusion

本文提出了一个具有多模态感知能力的基于模仿学习的概率驾驶模型。

作者认为之前的一些端到端驱动得方法存在三个不足：

·纯相机在很多情况下不鲁棒，所以得加入雷达

·非确定性是控制的关键，没有很好地探索可执行行动的概率本质，大多数决策输出确定性命令到车辆

·自动驾驶的评价应该放在在线评估而不是离线评估

本文也就根据这三点做出新的工作，对多模态信息进行处理。然后使用ResNet进行特征提取。在此基础上，引入概率运动规划(PMP)网络，从专家提供的数据中学习深度概率驾驶策略，输出基于高斯混合模型(GMM)的未来运动分布和确定性控制动作。这是一种多模态传感器融合和概率运动规划的端到端导航方法，作者将其命名为PMP-net。

最后通过大量的实验，在新的基准上在线评估模型的驾驶性能。在极端天气和交通繁忙的城市和农村地区，对网络进行广泛的评估。

与之前的路径导航类似，本文使用一个全局规划器来规划通往目的地的路径。所以就将自动驾驶汽车导航问题制定为一个目标导向的运动规划任务，并通过一个基于模仿学习的端到端网络架构来解决。整个系统的结构如下图所示。
请添加图片描述

模型的细节

全局规划：独立于深层网络，由A?算法实现，以基于静态城镇地图规划从起点到终点的高级路线。最终输出都是2048维的向量。

多模态感知：将激光雷达点云和雷达数据投影到与相机图像相同宽度和高度的图像平面上。如下图所示。这样，多模态信息在同一空间上对齐，可以通过cnn进行均匀处理。接着使用ResNet34从相机和雷达图像提取环境特征。提取的特征都是2048维。

请添加图片描述

特征处理：4个2048维的向量使用了两种处理方法，1）直接连接成一个新的维度为8192的向量，之后再进一步处理；2）使用注意力机制，为每个特征在不同环境下给予不同的权重，如下：

请添加图片描述

8192维的向量经过全连接层以及softmax激活计算出以上的系数a

端到端输出：最终这些特征融合后再连接全连接层以及Relu激活，产生由转向、油门和刹车组成的控制动作a1。

概率运动规划：该模块的目标是学习未来3.0秒内可能的运动(即速度和偏航角)的完整参数化分布。由于GMM具有很好的近似特性，采用它来表示这种分布。组合特征被全连接层转化为GMM参数(即，权重，均值和方差)来描述未来运动的分布。该模块使用了负对数似然(NLL)损失函数。

概率建模的优点是可以通过评估其统计特性来做出决策。作者进一步设计了一种PID控制器来计算由转向、油门和刹车组成的控制动作a2。

通过对μ积分计算，将该PID控制器的目标点(假设未来有k帧)设置为车辆前方5 m的点。然后，通过对运动分布的累积方差σ2的可靠性检验，计算出控制车辆的最终动作af
请添加图片描述

通过执行这种可靠性感知动作融合，就可以利用端到端控制和概率建模了。

实验细节

本文的实验是在CARLA模拟器上进行的。

使用五城市地图进行数据采集,包括多种类型的十字路口、环形路和多车道，设定了三种天气和三种日照情况的组合（一共9种）。并且安排了不同的行人在人行道和人行横道上随机奔跑或行走。最终共最终收集了360个驾驶集，共10.8小时，3.89万帧，行驶距离247公里。

将整个数据集按照7:1的比例分为训练集和验证集

训练细节：learning rate ：0.0001 batch size ：90 优化器：adam

对比方法：

CIL:条件模仿学习网络，端到端控制，并加入离散的顶层控制命令

前不久读过的这篇论文

F. Codevilla, M. Miiller, A. López, V . Koltun, and A. Dosovitskiy, “End-to-end driving via conditional imitation learning,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 1–9.

CIL-R:将CIL的图像处理模块换成ResNet34

INT:

参考论文：W. Gao, D. Hsu, W. S. Lee, S. Shen, and K. Subramanian, “Intention- net: Integrating planning and deep learning for goal-directed autonomous navigation,” in Conference on Robot Learning, 2017, pp. 185–194

对比实验

作者将该测试命名为DeepTest，测试会有更多的环境设置，比如更多的测试地图、天气条件和与道路环境的交互。

在四个地图上测试了不同的方法。对于每张地图，设置了三种交通密度级别:空白、规则和密集。因此，每一种驾驶模式都涉及12个驾驶任务。而且密集的交通会导致驾驶任务更难，因为有更多的动态障碍在道路上。在每个任务中，进一步设置了18个不同的天气条件。因此，为了充分评估PMP-net和其他三个基线方法，评估过程共花费了4天的时间，行驶距离为855公里。与训练集中的环境设置相比添加了新地图、光照和天气来测试泛化能力。

请添加图片描述

评价指标：

SR:success rate 成功率，在一定时间内到达目的地而没有发生任何碰撞，则认为是成功的。

WL：在错误车道的时间比例。

OVSP:超速时间占总驾驶时间的比例。在十字路口限速20公里/小时，在其他地方限速50公里/小时

实验结果

请添加图片描述

在成功率方面：

CIL模型的效果最差，甚至无法在Town07中取得成功。CIL-R性能优于CIL。通过将模型结构更改为INT，可以在某些新环境中获得更好的泛化性能，然而，INT在Town03和其他一些新环境如Town05-Dense中表现不如CIL-R。一般来说，INT和CIL-R在户外驾驶区域，特别是在交通拥挤的情况下，表现相似的低水平。这是因为它们只使用视觉感知，而在像StormDark这样的恶劣环境中，视觉感知往往会出现问题。相比之下，PMP-net在所有评估设置中都获得了更高的SR，这表明它具有更强的泛化能力。在所有环境中，空载交通的SR均达到100%，常规和密集交通的SR均达到72~88%。

在WL和OVSP方面：

CIL和CIL- r均具有较高的WL值(3.35~66.05%)，在全局路由信息的帮助下，模型能够更准确地驾驶，INT和PMP的WL值都接近于0%。然而，INT倾向于控制车辆在十字路口高速行驶而不减速。这导致INT的OVSP值较高(5.85~37.12%)。而PMP在这个指标上仍然表现良好(0.0~0.4%)。总的来说PMP-net可以有效地学习和部署复杂动态环境中的驱动知识。

0%。然而，INT倾向于控制车辆在十字路口高速行驶而不减速。这导致INT的OVSP值较高(5.85~37.12%)。而PMP在这个指标上仍然表现良好(0.0~0.4%)。总的来说PMP-net可以有效地学习和部署复杂动态环境中的驱动知识。

另附上测试视频