摘要
当过去的轨迹平稳地继续时,预测移动代理的未来轨迹可能很容易,但当涉及与其他代理的复杂交互时则具有挑战性。 最近用于轨迹预测的深度学习方法显示出有希望的性能,并将其部分归因于对代理-代理交互的成功推理。 然而,目前尚不清楚此类黑盒模型实际学习使用哪些特征进行预测。 本文提出了一种程序,该程序根据 Shapley 值的变体量化不同线索对模型性能的贡献。 将此过程应用于标准基准数据集上最先进的轨迹预测方法表明,它们实际上无法对交互进行推理。 相反,目标过去的轨迹是用于预测其未来的唯一特征。 另一方面,对于具有更丰富社交互动模式的任务,测试模型确实会在一定程度上识别此类互动,正如我们的特征归因方法所量化的那样。 我们讨论了所提出方法的局限性及其与因果关系的联系。
引言
预测移动代理的未来轨迹是与自动驾驶(Weisswange 等人,2021 年;Xu 等人,2014 年)、机器人导航(Chen 等人,2018 年)或监视系统( 莫里斯和特里维迪,2008 年)。 准确的轨迹预测需要成功整合具有不同信噪比的多个信息源:虽然目标智能体过去的轨迹在大多数情况下都非常有用,但与其他智能体的交互通常是稀疏且持续时间短的,但在以下情况下可能至关重要 它们发生。 图神经网络 (N. Kipf & Welling, 2017) 和 Transformers (Vaswani et al., 2017) 导致了最近的进展 w.r.t. 平均预测误差(Mohamed 等人,2020 年;Yu 等人,2020 年;Salzmann 等人,2020 年;Mangalam 等人,2020 年),但未来轨迹的预测分布仍远非完美,尤其是在不寻常的情况下。 此外,最先进的模型(通常由各种循环、卷积、图形和注意力层组成)的黑盒性质使得理解模型实际学会使用哪些信息来进行预测变得越来越困难。 为了确定现有方法的缺点和进一步发展的方向,在目前的工作中,我们提出了一种可解释轨迹预测的工具。 更详细地说,我们使用 Shapley 值(Shapley,1953 年;Lundberg & Lee,2017 年)来开发一种专为多模态轨迹预测模型量身定制的特征归因方法。 这使我们能够在局部(对于特定代理和时间点)和全局(跨整个轨迹、场景或数据集)量化每个输入变量对模型性能的贡献(如通过负对数似然测量) )。 此外,我们提出了一种聚合方案,将所有相邻代理的贡献汇总为一个单一的社交互动评分,该评分捕捉模型能够如何使用来自代理之间互动的信息。 通过将我们的分析应用于具有代表性的最先进模型 Trajectron++(Salzmann 等人,2020 年)和 PECNet(Mangalam 等人,2020 年),我们发现——与各自作品中的主张相反——预测 这些模型在通用基准数据集 ETH-UCY(Pellegrini 等人,2009 年;Leal-Taixé 等人,2014 年)、SDD(Robicquet 等人,2016 年)和 nuScenes(Caesar 等人,2020 年)上的 实际上不是基于交互信息。 因此,我们还在额外的体育数据集 SportVU(Yue 等人,2014 年)上分析了这些模型的行为,我们期望交互作用更大。 在那里,模型确实学会了使用社交互动,并且所提出的特征归因方法可以量化(i)这些互动信号何时处于活动状态以及(ii)它们的相关性,请参见图 1 以了解概览。 总体而言,我们的分析表明,已建立的轨迹预测数据集对于对代理之间的交互学习进行基准测试是次优的,但现有方法确实有能力在更合适的数据集上学习此类交互。 我们强调了以下贡献: ? 我们首次解决了轨迹预测的特征归因问题,以深入了解当代方法用于进行预测的实际线索。 我们通过设计适用于大量轨迹预测模型的 Shapley 值的变体来实现这一点(第 3 节)。 ? 使用这种方法,我们量化了本地(每个场景;第 3.1 节)和全局(整个数据集;第 3.2 节)的特征属性,并研究给定模型的稳健性(第 3.3 节)。 ? 我们的研究发现,在流行的基准测试中,现有模型不使用交互功能。 然而,当这些特征对目标的未来轨迹有很强的因果影响时,这些模型开始对它们进行推理(第 4.4 节)。 图 1:我们提出的方法允许根据不同轨迹预测模型使用社交互动进行预测的程度来比较不同的轨迹预测模型(左:无,中:弱,右:强)。 要预测其未来轨迹的目标代理以红色显示,建模的交互由箭头表示,宽度表示交互强度。
相关工作
我们的主要目标是更好地了解现有轨迹预测模型面临的主要挑战。 首先,我们将问题设置形式化(第 2.1 节)并回顾先前的方法(第 2.2 节)以及可解释性工具(第 2.3 节),我们将在第 3 节中使用它们来实现这一目标。 2.1 弹道预测问题设置 让 {X t 1 , …, X t n }, t ∈ Z 表示一组时间序列,对应于可能相互交互的 n 个代理的轨迹; 参见图 2 (a) 的说明。 假设所有 X t i 都采用 R d 中的值,即代理 i 在时间 t 的状态是一个向量 x it ∈ R d 编码,例如,它的二维位置、速度和加速度。 我们将观察到的单个代理的时间演化 xi 1:T = (xi 1 , …, x iT ) 称为长度为 T 的轨迹和轨迹的集合 x 1:n 1:T = ( x 1:T , …, x 1:T ) 所有 n 个代理作为一个场景。 假设我们可以访问由 M 个这样的场景组成的训练数据集。 1 ii , …, X t+?t ) of 轨迹预测任务然后包括预测未来轨迹 (X t+1 给定的目标代理 i 和在给定的时间 t 直到时间范围 ?t 给定观察到的 目标代理本身和所有其他代理的过去 x 1:nt?h:t,其中 h 是考虑到 i 1:n 的历史长度。因此,正式地,我们的目标是学习分布 P (X t+1:t+?t |X t?h:t ) 对于任何 t ∈ Z 和 i ∈ N := {1, …, n} 给定 ?t 和 h。 由于任何给定的代理(例如,特定的人)通常只出现在训练数据集中的单个场景中,因此解决轨迹预测任务需要跨场景和代理身份进行泛化。 换句话说,有必要了解一个智能体的未来轨迹,一般来说,如何取决于它自己的过去和其他相邻智能体的过去行为。 2.2 现有的轨迹预测方法 图 2(b)-(d)显示了一个通用框架,它统一了大多数现有的轨迹预测方法。 它由三个主要模块组成: i (b) 一个历史编码器 ψ,它学习每个智能体历史的嵌入 F i = ψ(X t-h:t ); ? 一个交互编码器 ξ,它通过学习两个代理之间的边缘的 j i 嵌入来合并来自相邻代理的信息 E ij = ξ(X t?h:t , X t?h:t ); (d) 一个解码器 θ,它结合了历史和交互特征来生成目标代理的预测未来轨迹 x? it+1:t+?t := θ(F i , ē i ),其中 ē i 是 聚合所有边缘嵌入(见下文)。 现有方法在这些模块的选择上大不相同。 为了处理代理状态的时间演化,LSTM(Hochreiter & Schmidhuber,1997)被广泛用于 ψ 和 θ,即分别编码历史和解码未来轨迹(Alahi 等人,2016 年;Zhang 等人 ., 2019)。 由于未来高度不确定,随机解码器通常用于对多个轨迹进行采样,x? it+1:t+?t ~ θ(.),例如,使用 GAN(Gupta 等人,2018)或条件 VAE(Lee 等人) ., 2017; Salzmann 等人, 2020)。 或者,Makansi 等人。 (2019) 提出了一种多头网络,可以直接预测混合模型在未来轨迹上的参数。 为了处理移动代理之间的交互(图 2c),现有工作将场景建模为一个图,其中节点对应于 n 个代理的状态嵌入 F i 并且边由具有 A ij = 1 iff 的邻接矩阵 A 指定。 代理 i 和 j 被认为是邻居(例如,基于它们的相对距离)。 鉴于此公式,本地社交池化层已被用于编码和聚合来自特定半径内附近代理的相关信息(Alahi 等人,2016 年;Gupta 等人,2018 年)。 最近,Mangalam 等人。 (2020) 提出了一个非本地社会池化层,它使用注意力并且对假邻居识别更加鲁棒,而 Salzmann 等人。 (2020) 将场景建模为有向图,以表示一组更一般的场景和交互类型,例如非对称影响。 在不同的工作领域,Mohamed 等人。 (2020) 提出了无向时空图卷积神经网络来编码社交互动,Yu 等人。 (2020) 还结合了基于自我注意的变换器来学习更好的嵌入。 通常,代理 i 的边缘编码 {E ij } j 然后在其邻居集上聚合(即,那些 j 具有 A ij = 1)以产生交互特征 ē i ,例如,通过如下平均: 公式(1) 尽管上述一些工作在通用基准测试中显示出有希望的结果,但尚不清楚这些方法实际使用哪些信息来预测未来。 在目前的工作中,我们主要关注这方面,并提出了一个评估程序,量化不同特征对预测轨迹的贡献,包括局部和全局。 2.3 E 可解释性和特征属性 在深度学习中实现可解释性的一个重要步骤是特征归因方法,该方法旨在量化给定输入特征对模型行为(例如,预测、不确定性或性能)负责的程度。 该领域的主要方法之一是来自合作博弈论的概念,称为 Shapley 值(Shapley,1953),它在一组 n 个玩家之间公平地分配游戏的支出。 2 在机器学习中,Shapley 值可以通过将输入 x = (x 1 , …, xn ) 映射到一个游戏中来用于特征属性,其中玩家是个人特征 xi,支出是模型行为 f : X 1 × … × X n → R 在那个例子中(Lundberg & Lee,2017)。 形式上,定义一个集合函数 ν : 2 N → R,其中 N := {1, …, n} 其子集 S ? N 的输出 ν(S) 对应于在输入的修改版本上运行模型 x 对于不在 S 中的特征被“删除”或替换(详见下文)。 x i 的贡献由其 Shapley 值 φ(x i ) 量化,然后由包含和不包含 i 之间的差 ν(S ∪ {i}) ? ν(S) 给出,在所有子集 S 上取平均值: 公式(2) Shapley 值有不同的变体,主要基于以下两个设计选择:(i) 要归因于什么模型行为(预测、不确定性、性能)? (f 的选择) (ii) 参考基线是什么,即特征是如何被丢弃的? (ν的选择)(i)的一个常见选择是模型的输出(即预测)。 或者,Janzing 等人。 (2020a) 将 f 定义为与模型预测相关的不确定性,从而量化每个特征值在多大程度上有助于或减少不确定性。 在目前的工作中,我们将专注于归因模型性能。 至于 (ii) 集合函数 ν,Lundberg & Lee (2017) 最初提出用来自条件数据分布的样本替换被删除的特征 x N \S 给定非删除特征:ν(S) = E[f ( x S , XN \S )|XS = x S ]; 然后,他们使用边缘分布 ν(S) = E[f (x S , X N \S )] 对此进行近似,使用特征独立性的简化假设。 Janzing 等人。 (2020b) 从因果的角度认为,边际分布实际上是正确的抽样分布,因为删除特征的过程自然对应于干预性分布,而不是观察性(条件)分布。 在另一种称为基线 Shapley 值的替代方法中,丢弃的特征被替换为预定义基线 x 0 的特征:ν(S) = f (x S , x 0 N \S ),详情参见 Sundararajan & Najmi (2020)。 3 E 可解释的轨迹预测 在目前的工作中,我们有兴趣更好地了解轨迹预测模型使用哪些信息来表现良好,即量化每个输入特征对给定模型的性能(而不是其实际输出)的贡献。 因此,我们将要归因的行为 f(即第 2.3 节中的选择 (i))定义为输出预测的误差 f := L(x? it+1:t+?t , x it+1:t+?t ),其中 L 表示任何损失函数(常见选择见第 4.3 节)。 3.1 哪些 S HAPLEY 值变体:如何删除 ROP 功能?
|