[人工智能] Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting -> 正文阅读

[人工智能]Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting

ASTGCN（基于注意力机制的时空图卷积网络）

1.文章概述

1.1 主要贡献

本文提出了一个新的图卷积网络attention based spatial-temporal graph convolutional network (ASTGCCN)，该网络主要有三个独立的部分组成，分别对交通流的三个时间属性进行建模(最近时间的、每日周期、每周周期)，其中每个模块包含两个主要部分：1）时空注意力模块，去动态捕捉时空相关性。2）时空卷积模块，使用图卷积捕捉空间模式，使用标准卷积描述时间特征。

1.2 本文出发点

本文作者认为在邻近位置和时间戳进行的观察不是独立的，而是相互动态关联的。如下图所示，线段越粗代表两点之间关系越强，Figure1(a)中我们可以发现，不同的位置对A的影响不同，甚至同一个位置随着时间的推移对A的影响也不尽相同。Figure1(b)中可以观察到不同位置的历史观测对未来不同时间的A的交通状态有不同的影响。

在这里插入图片描述

1.3 相关工作

统计学：统计模型HA, ARIMA , VAR，这些方法需要数据来满足一些假设，但是流量数据太复杂，无法满足这些假设，因此它们在实践中通常表现不佳。

基于CNN和RNN：后续出现了CNN、LSTM等一系列方法用于提取交通数据的时空特征，但它们的局限性在于输入必须是标准的2D或三维网格数据。

图卷积：主要分为两种图卷积：基于谱理论的图卷积和基于空间扩散的图卷积。本文使用的是基于谱理论的图卷积。

注意力机制：通过计算出点之间关联程度，进行加权，本文同时采用图卷积和注意力机制对网络结构的交通数据进行建模

2. Attention Based Spatial-Temporal Graph Convolutional Networks

符号	含义
$q$	每日取样次数
$x_t^{c,i}$	图中节点i在时刻t第c个特征
$x_t^i$	途中第i个节点在时刻t的所有特征
$X_t$	在第t个时刻，所有节点的所有特征值
$\mathcal{X}_{h}$	相邻时间段输入
$\mathcal{X}_{d}$	日间隔的输入
$\mathcal{X}_{w}$	周间隔的输入

在这里插入图片描述

三个时间维度的输入：

在这里插入图片描述

模型总共有三个输入: $T_h、T_d、T_w$ ??，分别作为最近、日周期和周周期分量的输入长度， $T_h、T_d、T_w$ 都为 $T_p$ 的整数倍。???

ASTGCN模型由三个具有相同结构的独立组件组成，分别用于对历史数据的最近、每日周期和每周周期依赖性进行建模。三个时间输入使用相同的网络结构，每个组件都由几个时空块和一个全连接组成。其中每个时空块中有一个时空注意模块和一个时空卷积模块。网络为了优化训练效率使用残差连接。最终三个组件的输出合并为最终的预测结果。

2.1 Spatial-Temporal Attention

本文作者提出了一种新的时空注意力机制捕捉时空相关性，它由空间注意力机制和时间注意力机制组成。

Spatial attention

在空间维度上，不同地点的交通状况相互影响，相互影响是高度动态的。这里，我们使用注意机制来自适应地捕捉空间维度中节点之间的动态相关性。
$\begin{gathered} \mathbf{S}=\mathbf{V}_{s} \cdot \sigma\left(\left(\mathcal{X}_{h}^{(r-1)} \mathbf{W}_{1}\right) \mathbf{W}_{2}\left(\mathbf{W}_{3} \mathcal{X}_{h}^{(r-1)}\right)^{T}+\mathbf{b}_{s}\right) \\ \mathbf{S}_{i, j}^{\prime}=\frac{\exp \left(\mathbf{S}_{\mathrm{i}, \mathrm{j}}\right)}{\sum_{j=1}^{N} \exp \left(\mathbf{S}_{\mathrm{i}, \mathrm{j}}\right)} \end{gathered}$
其中 $\mathcal{X_h^{r-1}}$ 是上一层的输出, $V_s、b_s、W_1、W2、W_3$ ??是??可训练参数。S为空间注意力矩阵，值 $S_{ij}$ 代表节点i，j再空间上的依赖程度。最终S经过softmax函数进行归一化。

Temporal attention

在时间维度上，不同时间段的交通状况之间存在相关性，不同情况下的相关性也不同。
$\begin{gathered} \mathbf{E}=\mathbf{V}_{e} \cdot \sigma\left(\left(\left(\mathcal{X}_{h}^{(r-1)}\right)^{T} \mathbf{U}_{1}\right) \mathbf{U}_{2}\left(\mathbf{U}_{3} \mathcal{X}_{h}^{(r-1)}\right)+\mathbf{b}_{e}\right) \\ \mathbf{E}_{i, j}^{\prime}=\frac{\exp \left(\mathbf{E}_{i, j}\right)}{\sum_{j=1}^{T_{r-1}} \exp \left(\mathbf{E}_{i, j}\right)} \end{gathered}$
这边于空间注意力机制相似，只是对输入进行转置变成时间维度上的向量相乘，计算出不同时间之间的相关程度。

2.2 Spatial-Temporal Convolution

由注意力机制调整的输入被馈送到时空卷积模块，其结构下图所示

在这里插入图片描述

Graph convolution in spatial dimension

本文采用的是基于拉普拉斯矩阵的图卷积具体卷积公式如下
$g_{\theta} *_{G} x=g_{\theta}(\mathbf{L}) x=\sum_{k=0}^{K-1} \theta_{k}\left(T_{k}(\tilde{\mathbf{L}}) \odot \mathbf{S}^{\prime}\right) x$

时间卷积

本文采取的应该是类似于STGCN的1-D Convolution具体公式如下
$\boldsymbol{\mathcal { X }}_{h}^{(r)}=\operatorname{Re} L U\left(\Phi *\left(\operatorname{Re} L U\left(g_{\theta} *_{G} \hat{\mathcal{X}}_{h}^{(r-1)}\right)\right)\right) \in \mathbb{R}^{C_{r} \times N \times T_{r}}$
其中 $\hat{\mathcal{X}}_{h}^{(r-1)}=\mathcal{X}_h^{(r-1)}E^{\prime}$ ???

2.3 Multi-Component Fusion

某些地区的交通流量在早晨有明显的高峰时段，因此日时段和周时段分量的输出更为关键。然而，在其他一些地方没有明显的交通循环模式，因此日周期和周周期的组成部分可能是无用的。对其作者对三个组件的输出进行加权最终输出为：
$\hat{\mathbf{Y}}=\mathbf{W}_{h} \odot \hat{\mathbf{Y}}_{h}+\mathbf{W}_{d} \odot \hat{\mathbf{Y}}_{d}+\mathbf{W}_{w} \odot \hat{\mathbf{Y}}_{w}$