1. 这篇文章的主要研究内容

Graph Neural Network-Based Anomaly Detection in Multivariate Time Series：基于图神经网络的多元时间序列异常检测

目标：为多元时间序列数据开发特定的方法，明确地捕获传感器之间的关系图。

现有的方法存在的缺陷：现有的方法没有明确地学习变量之间现有关系的结构，或使用它们来预测时间序列的预期行为。

针对该缺陷做出的改进：为了充分利用多元时间序列中传感器之间的复杂关系，利用图神经网络（GNNs）来学习传感器之间的关系图。

基于图的方法通过用边表示相互依赖关系，为传感器之间的关系建模提供了一种方法。

一般情况下，GNN假设节点的状态受其邻居的状态影响；
图卷积网络（Graph Convolution Networks, GCNs）通过聚合节点的一步邻居的表示来建模节点的特征表示；
图关注网络（graph attention networks, GATs）在聚合过程中使用关注函数来计算不同邻居的不同权重。

提出的方法：图偏差网络（Graph Deviation Network, GDN），该方法学习传感器之间的关系图，并从这些模式中检测偏差。该方法包括四个主要部分：

Sensor Embedding，传感器嵌入：利用嵌入向量灵活地捕捉每个传感器的独特特征；
Graph Structure Learning，图结构学习：图结构学习学习传感器对之间的关系，并将其编码为图中的边；
Graph Attention-Based Forecasting，基于图注意的预测：基于对图中相邻传感器的注意函数来预测传感器的未来行为；
Graph Deviation Scoring，图偏差得分：识别并解释从图中学习的传感器关系的偏差，并对这些偏差进行定位和解释。

2. 图偏差网络（Graph Deviation Network, GDN）

1. Problem Statement

训练数据： $N$ 个传感器在 $T_{train}$ 这段时间内的数据： $s_{train} = [s^{(1)}_{train} , s^{(2)}_{train} , ... , s^{(T_{train})}_{train}]$ ，其中， $s^{(t)}_{train}$ 是一个 $N$ 维向量，表示在 $t$ 时刻 $N$ 个传感器的值。
按照通常的无监督异常检测公式，假设训练数据只包含正常数据。

我们的目标是能够检测到测试数据中的异常，测试数据表示为： $s_{train} = [s^{(1)}_{test} , s^{(2)}_{test} , ... , s^{(T_{test})}_{test}]$

算法的输出是一组大小为 $T_{test}$ 的二进制标签，这组标签指示了在每个时刻 $t$ 是否发生异常。 $a(t)\in\{0,1\}$ ，其中 $a (t) = 1$ 表示 $t$ 时刻发生了异常。

2. Overview

该方法包括四个主要部分：

Sensor Embedding，传感器嵌入：利用嵌入向量灵活地捕捉每个传感器的独特特征；
Graph Structure Learning，图结构学习：图结构学习学习传感器对之间的关系，并将其编码为图中的边；
Graph Attention-Based Forecasting，基于图注意的预测：基于对图中相邻传感器的注意函数来预测传感器的未来行为；
Graph Deviation Scoring，图偏差得分：识别并解释从图中学习的传感器关系的偏差，并对这些偏差进行定位和解释。

在这里插入图片描述

（1）Sensor Embedding，传感器嵌入

为每个传感器引入一个嵌入向量来表示其特征： $v_i \in R^d$ , for $\in \{1,2,...,N\}$ 。

这些嵌入向量 $v_i$ 之间的相似性表示行为的相似性。因此，具有相似嵌入值的传感器之间应该有很高的相关性。

（2）Graph Structure Learning，图结构学习

图结构学习将学习一个加权有向图，其节点表示传感器，边表示传感器之间的依赖关系。
对于传感器 $i$ 来说，我们计算传感器 $i$ 的嵌入向量与其候选关系 $C_i$ 的相似度（归一化点积） $e_{ji}$ ：
$e_{ji} = \frac{\pmb{v_i}^T\pmb{v_j}}{||\pmb{v_i}|| \cdot ||\pmb{v_j}||} for j \in C_i$

然后选择前 $k$ 个这样的归一化点积， $k$ 的值可以由用户根据所需的稀疏程度来选择。
$A_{ji} = 1\{j\in TopK({e_{ki}:k\in C_i})\}$
其中，1{·}为示性函数，即1{值为真的表达式} = 1，1{值为假的表达式} = 0 。

在没有先验信息的情况下，传感器 $i$ 的候选关系就是除了它自己之外的所有传感器。

（3） Graph Attention-Based Forecasting，基于图注意力的预测

在时刻 $t$ ，我们基于历史时间序列数据上大小为 $w$ 的滑动窗口，将模型的输入定义为 $\pmb{x}^{(t)} := [\pmb{s^{(t-w)}}, \pmb{s^{(t-w+1)}}, ... , \pmb{s^{(t-1)}}]$ 。模型需要预测的目标输出是当前时刻的传感器数据，即 $s^{(t)}$ 。

为了捕获传感器的不同行为，我们引入了一种基于图注意的特征提取器，基于学习到的图结构将节点信息与相邻节点融合：
$\pmb{z}^{(t)}_i = ReLU(\alpha_{i,i}\pmb{W}\pmb{x}^{(t)}_i + \sum\limits_{j\in N(i)} \alpha_{i,j} \pmb{W}\pmb{x}^{(t)}_j)$ 其中， $\pmb{x}^{(t)}_i$ 为模型输入， $N(i) = \{ j | A_{ji} > 0 \}$ ， $W$ 是训练得到的权重矩阵，注意系数 $\alpha_{i,j}$ 的计算公式为：

在这里插入图片描述
这样，我们就得到了所有N个节点的表示，即 $\{ \pmb{z}^{(t)}_1 , \pmb{z}^{(t)}_2, ... , \pmb{z}^{(t)}_N \}$

对于每个 $\pmb{z}^{(t)}_i$ ，我们将其与对应的嵌入向量 $\pmb{v}_i$ 进行元素相乘（记为 $\circ$ ），并将所有节点的计算结果作为输出为N维的全连接层的输入，以预测 $t$ 时刻传感器值的矢量 $\pmb{s}^{(t)}$ ：
$\pmb{\widehat{s}^{(t)}} = f_\theta ([ \pmb{v}_1 \circ \pmb{z}^{t}_1 , \pmb{v}_2 \circ \pmb{z}^{t}_2 , ... , \pmb{v}_N \circ \pmb{z}^{t}_N ])$
我们希望模型的预测输出与真实值尽量接近，因此使用预测输出 $\pmb{\widehat{s}^{(t)}}$ 和观测数据 $\pmb{s^{(t)}}$ 之间的均方误差作为损失函数来最小化：
$L_{MSE} = \frac{1}{T_{train - w}} \sum\limits^{T_{train}}_{t=w+1} || \pmb{\widehat{s}^{(t)}} - \pmb{s^{(t)}} ||^2_2$

（4）Graph Deviation Scoring，图偏差得分

考虑到学习到的关系，我们希望检测和解释偏离这些关系的异常。

传感器 $i$ 在 $t$ 时刻预测行为与观察到的行为之间的偏差： $Err_i(t) = | s^{(t)}_i - \widehat{s}^{(t)} |$

不同的传感器的偏差可能有不同的尺度，因此将每个传感器的偏差做归一化处理： $a_i(t) = \frac{Err_i(t) - \widetilde{\mu}_i}{\widetilde{\sigma}_i}$ ，其中 $\widetilde{\mu}_i$ 是 $Err_i(t)$ 的中位数， $\widetilde{\sigma}_i$ 是 $Err_i(t)$ 的四分位距（inter-quartile range, IQR）。