[人工智能] 论文笔记--Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文笔记--Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting -> 正文阅读

[人工智能]论文笔记--Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting

Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting (AAAI 19)

Summary

作者提出ASTGCN的主要由三个独立组件组成，分别对交通流的三种节奏特性(近期依赖、日周期依赖和周周期依赖)进行建模。每个组件包含两个主要部分：1)有效捕获交通数据中动态时空相关性的时空注意机制；2)时空卷积，即同时使用图卷积来捕获空间模式和通用标准卷积来捕获时间特征。三个组件的结果相融合得到最终预测结果。

Problem Definition

交通预测问题最大挑战还是如何有效提取数据的时空相关性。如下图

线条颜色越深，影响越大。从图(a)表示的是空间依赖的关系，不同的地点对A的影响是不同的，即使是同一个地点随着时间的推移对A的影响也是不同的。在时间维度下图（b），不同位置的历史观测结果对A未来不同时段的交通状态有不同的影响。综上所述，公路网交通数据相关性在空间维度和时间维度上均表现出较强的动态性。

问题定义

将交通网络定义为一个无向图表示为 $G = (V, E, A)$ ，V表示节点列表，E是边集， $A\in \mathbb{R}^{N\times N}$ 是邻接矩阵。定义 $\mathcal{X}=\left(\mathbf{X}_{1}, \mathbf{X}_{2}, \ldots, \mathbf{X}_{\tau}\right)^{T} \in \mathbb{R}^{N \times F \times \tau}$ 表示τ时间内所有节点的所有特征值。利用交通网络中所有节点在过去 $\tau$ 时间内的各种历史测度，预测未来交通流序列 $(y^1,y^2,...,y^N)^t \in \mathbb{R}^{N\times T_p}$ 。

Method

ASTGCN算法框架

输入

① $\mathcal{X}_{h}=\left(\mathbf{X}_{t_{0}-T_{h}+1}, \mathbf{X}_{t_{0}-T_{h}+2}, \ldots, \mathbf{X}_{t_{0}}\right) \in \mathbb{R}^{N \times F \times T_{h}}$ 表示的是最近时间段交通信息，长度为Th。从直观上看，交通拥挤的形成和扩散是渐进的。因此，过去的交通流必然会对未来的交通流产生影响。

②
$\begin{aligned} &\mathcal{X}_{d}=\left(\mathbf{X}_{t_{0}-\left(T_{d} / T_{p}\right) * q+1}, \ldots, \mathbf{X}_{t_{0}-\left(T_{d} / T_{p}\right) * q+T_{p}}\right. \\ &\mathbf{X}_{t_{0}-\left(T_{d} / T_{p}-1\right) * q+1}, \ldots, \mathbf{X}_{t_{0}-\left(T_{d} / T_{p}-1\right) * q+T_{p}}, \cdots \\ &\left.\mathbf{X}_{t_{0}-q+1}, \ldots, \mathbf{X}_{t_{0}-q+T_{p}}\right) \in \mathbb{R}^{N \times F \times T_{d}} \end{aligned}$
表示日周期时间段交通信息，长度为Td。公式中q表示一天采集的时间步长度。由于人的日常规律，交通数据可能会呈现重复的模式，例如每天的早晨高峰。日周期数据的目的是对交通数据的日周期性进行建模。

③
$\begin{aligned} &\mathcal{X}_{w}=\left(\mathbf{X}_{t_{0}-7 *\left(T_{w} / T_{p}\right) * q+1}, \ldots, \mathbf{X}_{t_{0}-7 *\left(T_{w} / T_{p}\right) * q+T_{p}}\right. \\ &\mathbf{X}_{t_{0}-7 *\left(T_{w} / T_{p}-1\right) * q+1}, \ldots, \mathbf{X}_{t_{0}-7 *\left(T_{w} / T_{p}-1\right) * q+T_{p}}, \ldots \\ &\left.\mathbf{X}_{t_{0}-7 * q+1}, \ldots, \mathbf{X}_{t_{0}-7 * q+T_{p}}\right) \in \mathbb{R}^{F \times N \times T_{w}} \end{aligned}$
表示周周期时间段交通信息，长度为Tw，其中7表示一周7天。通常情况下，周一的交通模式与历史上周一的交通模式有一定的相似性，但可能与周末的交通模式有很大的不同。所以每周周期数据被设计用来捕获流量数据中的每周周期特征。

输入数据可视化表示如下

时空注意力模块

①空间注意力

首先通过 $\boldsymbol{X}_{h}^{(r-1)}=\left(\mathbf{X}_{1}, \mathbf{X}_{2}, \ldots \mathbf{X}_{T_{r-1}}\right) \in \mathbb{R}^{N \times C_{r-1} \times T_{r-1}}$ 计算出注意力矩阵S， $S_{i,j}$ 表示节点i与节点j的相关强度。然后通过softmax使节点注意权值之和为1。
$\begin{gathered} \mathbf{S}=\mathbf{V}_{s} \cdot \sigma\left(\left(\boldsymbol{X}_{h}^{(r-1)} \mathbf{W}_{1}\right) \mathbf{W}_{2}\left(\mathbf{W}_{3} \mathcal{X}_{h}^{(r-1)}\right)^{T}+\mathbf{b}_{s}\right) \\ \mathbf{S}_{i, j}^{\prime}=\frac{\exp \left(\mathbf{S}_{i, j}\right)}{\sum_{j=1}^{N} \exp \left(\mathbf{S}_{i, j}\right)} \end{gathered}$
其中 $\mathbf{V}_{s}, \mathbf{b}_{s} \in \mathbb{R}^{N \times N}, \mathbf{W}_{1} \in \mathbb{R}^{{T}_{r-1}}, \mathbf{W}_{2} \in \mathbb{R}^{C_{r-1} \times T_{r-1}}, \mathbf{W}_{3} \in \mathbb{R}^{C_{r-1}}$ 使可学习参数。

然后注意力矩阵S’在图卷积部分将与邻接矩阵A共同调节节点间的影响权重。

②时间注意力

计算时间维度的注意力系数

$\begin{gathered} \mathbf{E}=\mathbf{V}_{e} \cdot \sigma\left(\left(\left(\mathcal{X}_{h}^{(r-1)}\right)^{T} \mathbf{U}_{1}\right) \mathbf{U}_{2}\left(\mathbf{U}_{3} \mathcal{X}_{h}^{(r-1)}\right)+\mathbf{b}_{e}\right) \\ \mathbf{E}_{i, j}^{\prime}=\frac{\exp \left(\mathbf{E}_{i, j}\right)}{\sum_{j=1}^{T_{r-1}} \exp \left(\mathbf{E}_{i, j}\right)} \end{gathered}$
其中$\mathbf{V}{e{2}} \mathbf{b}{e} \in \mathbb{R}^{T{r-1} \times T_{r-1}}, \mathbf{U}{1} \in \mathbb{R}^{N}, \mathbf{U}{2} \in \mathbb{R}^{C_{r-1} \times N}, \mathbf{U}{3} \in \mathbb{R}^{C{r-1}}
$是可学习参数。

对于时间注意力块，作者直接将归一化的时间注意矩阵应用于输入，计算公式如下

$\hat{\boldsymbol{X}}_{h}^{(r-1)}=\left(\hat{\mathbf{X}}_{1}, \hat{\mathbf{X}}_{2}, \ldots, \hat{\mathbf{X}}_{T_{r-1}}\right)=\left(\mathbf{X}_{1}, \mathbf{X}_{2}, \ldots, \mathbf{X}_{T_{r-1}}\right) \mathbf{E}^{\prime}$
时空卷积模块