1. 前言

本文讲解自注意力机制（Self-Attention）。
本人全部文章请参见：博客文章导航目录
本文归属于：NLP模型原理与应用系列
前文：注意力机制（Attention）：Seq2Seq模型的改进

2. 自注意力机制（Self-Attention）

Seq2Seq模型一般有两个RNN网络，一个为Encoder，另一个为Decoder。Attention用于改进Seq2Seq模型，解决RNN遗忘问题。
Self-Attention也叫做Intra-Attention，与Attention非常类似。Self-Attention不局限于Seq2Seq模型，可以用在任何RNN上，Self-Attention可改进一般RNN模型，解决一般RNN模型遗忘问题。实验证明Self-Attention对多种机器学习和自然语言处理的任务都有帮助。

2.1 SimpleRNN + Self-Attention

根据简单循环神经网络（Simple RNN）原理与实战一文可知，在不使用Self-Attention的情况下，Simple RNN通过如下公式更新状态：
$h_{t+1}=tanh\big(A \cdot {h_t\brack x_{t+1}}+b\big)~~~~~~~~~~~~~~~~~~~~~~~~~~~(1)$

为了更方便说明Self-Attention原理，设当前时刻为 $t$ 时刻，下一时刻为 $t + 1$ 时刻。而不采用当前时刻为 $t ? 1$ 时刻，下一时刻为 $t$ 时刻这种更常见的设定。

使用Self-Attention + SimpleRNN，将状态向量 $h_t$ 更新为 $h_{t+1}$ 之前需要计算当前状态 $h_t$ 与 $h_i, (i=0\sim t)$ 的相关性（权重） $\alpha_{t0},\alpha_{t1},\alpha_{t2},\cdots,\alpha_{tt}$ 。
$\alpha_{ti}=align(h_i,h_t)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(2)$
$\alpha_{ti},(i=0\sim t)$ 均是介于 $0\sim 1$ 之间的实数， $\sum_{i=0}^t\alpha_{ti}=1$ 。
得到 $h_t$ 与SimpleRNN $t$ 时刻及之前所有时刻的状态 $h_0,h_1,h_2,\cdots,h_t$ 对应的权重 $\alpha_{t0},\alpha_{t1},\alpha_{t2},\cdots,\alpha_{tt}$ 之后，可以对SimpleRNN当前时刻 $t$ 及之前所有时刻的状态向量求加权平均，得到Context Vector，记为 $c_t$ ， $c_t=\alpha_{t0}h_0+\alpha_{t1}h_1+\alpha_{t2}h_2+\cdots+\alpha_{tt}h_t$ 。
得到Context Vector之后，通过如下公式更新状态：
$h_{t+1}=tanh\big(A \cdot {x_{t+1}\brack c_t}+b\big)~~~~~~~~~~~~~~~~~~~~~~~~~~~(3)$
或
$h_{t+1}=tanh\Big(A\cdot \begin{bmatrix} h_t\\ x_{t+1}\\ c_t \end{bmatrix} +b\Big)~~~~~~~~~~~~~~~~~~~~~~~~~~~(4)$
$c_t$ 是 $t$ 时刻及之前所有时刻状态 $h_0, h_1, h_2, \cdots, h_t$ 的加权平均，即在将状态 $h_t$ 更新为 $h_{t+1}$ 之前，Self-Attention会查看之前所有状态，因此不会遗忘之前的信息。

使用Self-Attention + SimpleRNN，状态更新过程如上图所示。初始时状态向量为 $h_0$ ，Context Vector为 $c_0$ ，一般均为全零向量，根据公式（3）或（4）可将状态 $h_0$ 更新为 $h_1$ 。再计算 $c_1$ ，然后根据公式（3）或（4）将状态 $h_1$ 更新为 $h_2$ 。再计算 $c_2$ ，然后根据公式（3）或（4）将状态 $h_2$ 更新为 $h_3$ 。不断重复该过程，计算新的Context Vector，然后生成新的状态向量，直至读取完整个输入序列。