| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 论文阅读:SCENE TRANSFORMER: A UNIFIED ARCHITECTUREFOR PREDICTING MULTIPLE AGENT TRAJECTORIES -> 正文阅读 |
|
[人工智能]论文阅读:SCENE TRANSFORMER: A UNIFIED ARCHITECTUREFOR PREDICTING MULTIPLE AGENT TRAJECTORIES |
一、摘要 ??????? 使用掩蔽策略作为对我们模型的查询,使人们能够调用一个单一的模型,以多种方式预测代理人的行为,如可能的条件是自主车辆的目标或全部未来轨迹,或环境中其他代理的行为。环境中的其他代理人的行为。我们的模型结构采用了注意力来结合道路元素、代理互动和时间步骤的特征。 边缘预测是只考虑一辆车的一条轨迹可能出现的概率,联合预测的概率是这一场景发生的概率,即在该场景下许多车辆的一条轨迹同时发生的概率。 二、相关工作 略 三、整体模型: ????????共三个模块:1、将代理人和道路图嵌入到一个高维空间 ???????????????????????????? 2、采用基于注意力的网络来编码代理人和道路图之间的相互作用。 ????????模型将每个agent在每个时间step中的特征作为输入,并预测每个代理在每个时间步骤的输出。在每个时间步骤中的输出。我们采用了一个相关的掩码,每个代理的时间步骤都有一个相关的 ????????该模型的关键表示是一个跨越T个时间步骤的具有D个特征维度的A个代理的3维张量。在架构内的每一层,我们的目标是保持形状[A, T, D]的表示,或者在解码时,在F个潜在的未来中保持[F, A, T, D]。每个任务(MP、CMP、GCP)都可以通过将指标掩码设置为0(即不提取mask为0位置的特征)来制定一个具有特定掩码策略的查询,从而向模型提供该数据(图2,左)。该模型的目标是对每个阴影区域的特征进行归纳,这些特征对应于场景中被屏蔽的时间和代理的子集。 ??????? 1、代理和道路图的以场景为中心的表示:我们使用一个以场景为中心的嵌入,我们使用感兴趣的代理的位置作为原点。并以它为中心对所有的道路图和代理进行编码。这与使用以代理人为中心的表示方法不同,后者对每个代理人的表示都是单独计算的,将每个代理人依次视为原点。把每一个agent的位置作为原点,其他的点都对应平移和旋转。首先,如果在某一个step中agent在,那么先为它生成在这个step下的特征;其次,我们为静态道路图生成一组特征,道路元素在空间和时间上都是静态的,用一个PointNet学习每一个ployline的特征向量,每条多线(标志是长度为1的多线)一个特征向量;最后,我们为动态道路图生成一组特征,它们是空间上静态但时间上动态的道路元素(例如交通灯),每个对象也有一个特征向量。 所有三个类别都有 xyz 位置信息,我们对其进行预处理以围绕感兴趣的代理居中和旋转,然后使用正弦位置嵌入进行编码。 ??????? 2、编码转换器: ?我们专注于一个简单的基于注意力的编码器-解码器架构,它自始至终保持着[A, T, D]的表示(图上)。大部分的层是Transformer层的一种形式。 注意层被参数化为代表查询Q、键K和值V的矩阵,其输出。 每个矩阵都被计算为一个学习的线性矩阵被计算为基础表征x的线性变换,如Q=Wq*x。每个注意层之后都有一个相同隐藏维度的前馈层,并将结果与整个转化层的输入进行跳接加法。编码器和解码器的所有层都采用D特征维度。解码器之后的最后一层是一个2层的MLP,预测7个输出。前6个输出对应于代理在给定时间步长中相对于感兴趣的代理的绝对坐标(如米)的3维位置,以及由拉普拉斯分布(Meyer & Thakurdesai, 2020)参数化的相应不确定性,剩余的维度预测了方向。 高效的因子化自我注意。 只在不同的时间应用注意力,使模型能够学习平稳的轨迹,不受代理人身份的影响。同样,只在各代理之间应用注意力,允许模型学习独立于具体时间步骤的多代理互动。只在不同的时间段应用注意力,使模型能够学习独立于代理身份的平滑轨迹。最后,为了捕捉时间和代理的依赖性,该模型只是在后续层中交替使用对代理和时间的注意(图2,右侧面板)。该模型对输入时的代理人的排序也是等值的,因为注意力操作是等值的。 交叉注意。 为了利用侧面信息,在我们的案例中是一个道路图,我们使用交叉注意力来使代理特征通过关注道路图来更新。具体来说,我们计算来自代理的查询,但键和值来自道路图的嵌入。道路图的嵌入是在每条线的PointNet之后的最终结果,因此在这些关注层中没有更新。这就要求模型学习道路结构和代理人之间的相互作用,这些相互作用与特定的时间步骤或代理人无关。我们强调,道路图的表示也是包罗万象的,并在场景中的所有代理中共享,而先前的方法通常使用每个代理的道路图表示。 预测每一种未来的概率。 我们的模型还需要为每个未来(在联合模型中)或轨迹(在边缘模型中)预测一个概率分数。为了做到这一点,我们需要一个能概括场景和每个代理人的特征表示。在第一组因子化的自我注意层之后,我们分别计算代理人特征张量在代理人和时间维度上的平均值,并将其作为一个额外的人工代理人和时间加入我们的内部表示[A + 1, T + 1, D](图2,左侧面板)。这个人工代理人和时间步骤通过网络传播,并为模型提供代表每个代理人的额外能力,这与任何时间步骤无关。 在最后一层,我们切出人工代理和时间步骤,以获得每个代理(每个代理的额外时间)和场景(既是额外时间又是代理的 "角落 "特征)的摘要特征。然后,这个特征被一个2层MLP处理,产生一个单一的logit值,我们用一个softmax分类器对每个未来的概率进行等值估计。 loss。 我们模型的输出是一个形状为[F, A, T, 7]的张量,代表每个代理人在给定时间步长的位置和方向。由于该模型通过位置嵌入对位置使用以场景为中心的表示,该模型能够在一个前馈通道中同时预测所有的代理。这种设计也使得联合未来预测和边际未来预测之间的直接切换成为可能。为了进行联合未来预测,我们把每个未来(在第一个维度)视为所有代理人的连贯未来。因此,我们将所有代理和时间步骤的位移损失汇总,建立一个形状为[F]的损失张量。我们只通过在位移损失方面与地面实情最接近的单个未来来反向传播损失(Gupta等人,2018;Yehet等人,2019)。对于边际未来的预测,每个代理被独立处理。在计算形状[F, A]的位移损失后,我们不在各代理人之间进行汇总。相反,我们为每个代理分别选择具有最小损失的未来,并相应地反向传播误差。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 0:46:51- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |