开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【论文阅读】Causal Imitative Model for Autonomous Driving -> 正文阅读

[人工智能]【论文阅读】Causal Imitative Model for Autonomous Driving

Sensor/组织: EPFL Sharif University of Technology
Status: Finished
Summary: 看看框架图就行。高效缓解因果混淆问题，将因果作为学习输出前一层进行判断
Type: arXiv
Year: 2021

参考与前言

主页：

Causal Imitative Model for Autonomous Driving

arxiv地址：

Causal Imitative Model for Autonomous Driving

github：https://github.com/vita-epfl/CIM

1. Motivation

模仿学习是一种通过利用来自专家驾驶员演示的数据来学习自动驾驶策略的强大方法。然而，通过模仿学习训练的驾驶策略忽略了专家演示的因果结构会产生两种不良行为：inertia and collision

问题场景

参考文献[9] 提出：

对于罕见事件的weak performance →datasets bias
对于学习策略的高方差 → stochastic learning
对于因果混淆问题 → 缺乏 explicit causal model

而这篇文章主要解决的就是第三点 → 提出 causal model，接下来是更为明确的问题场景

inertia problem

在这篇 [9] 提出的问题并没有针对性解决 ICCV2019: Exploring the Limitations of Behavior Cloning for Autonomous Driving

这篇文章主要把inertia problem看做是因果混淆问题 causality 在[10] 中提出了这点但是因为算法复杂度与latent variable是指数级别增长，所以对于自动驾驶来说 [10] 解法可能还是太贵了

有空再套娃 [10] 看看怎么解决因果混淆问题的 Dagger

[10] 摘要部分：通过有针对性的干预——环境交互或专家查询——来确定正确的因果模型来解决因果混淆问题。我们表明，因果错误识别发生在几个基准控制域以及现实驾驶设置中，并针对 DAgger 和其他基线和消融验证我们的解决方案

collision problem

主要是训练好的agent 并没有躲避其他车辆，就是和其他车辆撞上了

总结起来，论文指出应该要同时考虑这两个东西，因为如果分开考虑的话，就很有可能为了避免一方而牺牲一方，例如：为了解决inertia问题，一种trick是可以在某些情况下加速开油门；然而，这样很有可能导致撞车

Contribution

简单图主要contribution 在高亮 cause discovery 处

在本文中，我们提出了因果模仿模型（CIM）来解决 inertia 和 collision problem。 CIM 显式发现因果模型并利用它来训练策略。具体来说，CIM 将输入分解为一组 latent variables ，选择因果变量，并通过利用所选变量确定下一个位置。我们的实验表明，我们的方法在惯性和碰撞率方面优于以前的工作。

此外，由于利用了因果结构，CIM 将输入维度缩小到只有两个，因此可以在几次设置中适应新环境。

2. Method

notation:

$t$ 时间步数
$O^t$ 高维的 scense 观测
$\mathcal T^t$ 专家的未来轨迹
专家策略生成的专家轨迹： $\mathcal T ～ \pi(\cdot|O)$
我们想使用 $(O^t,\mathcal T^t)$ 来近似出来一个策略 $\pi$

模仿学习最简单的形式就是行为克隆 behavior cloning，也把policy learning问题变成了一个监督学习，在这个过程中是 $\pi$ 直接将 $O$ 映射得到 $\mathcal T$ ，然后再通过一个low-level controller来进行跟踪轨迹即可

根据[10] 的启发，首先把专家的demonstrations 看做一个 sequential decision-making process，所以每一个观测 $O^t$ 都可以分解 disentangled into some generative factors $Z^t=[Z^t_1,Z^t_2,\dots,Z^t_k]$

其中 $k$ 就是生成出来的因子个数，每一步时间t 都有这样的factor对应。为了规划未来的轨迹：

通过现在的状态 $Z^t$ 预测下一步的速度 $S^t_{\text{forward}}$
根据预测的速度 $S^t_{\text{forward}}$ 和状态 $Z^t$ 得到下一步的轨迹

也就是把观测先走到因子可以直接认为成观测输入一层MLP 输出？ latent variable

是的只是使用的模型不是单纯的一层FC 走了一个感知模型进行输出

2.1 输入

上帝视角的鸟瞰图和提取其他agent后的渲染图，简述即两幅图

2.2 框架

主要分为两个部分：

imitative model：主要处理静态障碍物的场景导航，无其他agent 交互的考虑，只考虑专家数据的位置分布密度 $q(\hat{\mathcal{T}} \mid O ; \theta)$ ，主要使用现有的模仿模型，训练取得最大似然估计

$q(\hat{\mathcal{T}} \mid O ; \theta)\theta^{*}=\underset{\theta}{\arg \max } \mathbb{E}[\log q(\hat{\mathcal{T}} \mid O ; \theta)]$
causal pipeline：主要预估速度和一下三个部分
1. 感知模型 embeds observation into disentangled representation，整个模块使用的是 $\beta$ -VAE [16] 的模型然后输出到128个分解出来的变量 $Z$
2. 因果速度预测：识别与速度有关的因果并找到 the next step speed using them
  
  主要是使用 Granger-cause 的一些定义： $X^t$ 是 $Y^t$ 的 Granger-cause，如果知道过去的 $X^t$ 可以帮助到预测未来的 $Y^t$
  
  当下列条件满足，则说明 $X^t$ 是 $Y^t$ 的 Granger-cause
  
  $\ { X i } i = 0 t ) (1) \exists h>0, \text { s.t. } \sigma_{Y}\left(h \mid \Omega^{t}\right)<\sigma_{Y}\left(h \mid \Omega^{t} \backslash\left\{X^{i}\right\}_{i=0}^{t}\right) \tag{1}$
  
  其中 $\sigma_{Y}\left(h \mid \Omega^{t}\right)$ 是时间 $t$ 下给 $\Omega^{t}$ 信息时 h-step下的预测 $Y^t$ 的MSE 平均方差误差， $\Omega^{t}$ 是指全局下所有与 $Y^t$ 有关的信息

温馨链接：Granger causality wiki page

摘取wiki至：格蘭傑因果關係檢驗（英語：Granger causality test）是一種假設檢定的統計方法，檢驗一組時間序列{\displaystyle x}是否為另一組時間序列{\displaystyle y}的原因。它的基礎是迴歸分析當中的自迴歸模型。迴歸分析通常只能得出不同變量間的同期相關性；自迴歸模型只能得出同一變量前後期 的相關性；但諾貝爾經濟學獎得主克萊夫·格蘭傑（Clive Granger）於1969年論證[1] ，在自迴歸模型中透過一系列的檢定進而揭示不同變量之間的時間落差相關性是可行的。
所以第一部分的现成的是啥模型？输入是啥传感器信息还是直接是上帝视角？

见输入，模型使用的是DIM参考文献的
是指下一个step中使用这些因果的速度吗？

2.3 输出

各自的两部分输出由框架图可知

imitative model 是输出轨迹点
perception model 走到 disentangled gerative factor 然后输出
cause selector 输出走到速度预测模块输出速度，配合前面的轨迹点
contrller 输出动作：油门方向盘刹车

3. 实验

指标：

Inertia rate：来源于[9] 超过15s的零速度即视为 inertia rate
Collision rate：与其他车辆相撞
Error rate：前两者相加

用DIM [32]，RIP [12] 做对比实验

外加两组消融实验，把CIM里面的cause selector直接换成 MLP进行再输出速度的 CIM-MLP；还有感知模型，直接使用原有的VAE而不是 $\beta$ -VAE的 CIM-entangled

温馨提示RIP：

ICML2020: Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts?

套娃读一下DIM 对比一下

4. Conclusion

贡献如上，主要是做了一层分解的latent variables 选择因果变量，limitation也指出：

根据原文5.5 可知分解效果 the performance of the disentabglement method 是本文的一个局限性，更好的分解方式可能带来更好的结果
本文仅针对inertia和collision 这两个问题，并没有扩展到整个 scene navigation 问题
- 是指传统的行为规划问题吗？ behaviour planning