简介

该教程主要参考的是台大李宏毅的网课视频，附上视频链接：台大李宏毅self-attention教程
文中图片均引自台大李宏毅的PPT，需要PPT的童鞋请戳这里：教程配套PPT

本文针对视频中的一些重点进行总结，看不懂的童鞋还请去看原视频，毕竟李宏毅yyds！！

背景什么的就不再介绍了，网上一搜一大堆，不知道背景的童鞋可以先去度娘问一下。

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/weixin_43414694/article/details/119058654
————————————————

正文开始

self-attention主要是针对seq2seq的，根据输入和输出的向量长度的不同可以分为三种情况：

输入和输出长度相同，也就是说输入n个向量，就要输出n个对应的标签：比如给一个句子里的每个单次标注词性（动词、名词、形容词等等）
输入和输出长度不同，也就是输入n个向量，输入m个向量（n!=m）：比如判断是个句子是贬义的还是褒义还是中中性的。例如You are very good，很显然这句话是褒义的，输入是四个向量，输出是两个向量
输出向量的长度未知，需要由机器自己决定需要输出的标签数量

本文以第一种情况进行展开讲解，第一种情况的英文名也叫Sequence Labeling，也就是输入的每一个向量都需要给给它一个对应的标签。

Sequence Labeling

首先给出一个句子，需要对下面这个句子的每一个单词的词性进行标注。

I saw a saw（我看到了一把锯）

这里的第一个saw意思为动词“看到”，而第二个saw的意思为名词“锯”，这对于我们来说可以很轻松的分辨出这两个saw的词性是不同的，但是机器不同。如果使用传统的深度学习方法，机器将会对每个单词进行独立分析，不考虑上下文之间的联系（此图引自台大李宏毅的ppt），那么这两个saw对于机器来说是完全一样的。因此输入的结果肯定也是一样的（要么都是名词，要么都是动词），因此在某些场合，考虑上下文联系就显得非常重要。
台大李宏毅ppt
有的人提出利用一个window将相邻单词框起来一起分析，但这种做法有几个缺点：

每个句子的长度可能不同
如果让window的长度等于最长的那个句子的长度，则会导致FC层的参数过多

因此，为了解决这些问题，self-attention就被提出来了。

Self-attention

在这里插入图片描述
乍一看这张图和上面那一张差别不大，也是输入四个向量，输出四个向量，但输出的这四个向量比较特殊，它们是考虑整个句子后才输出的，并不是一对一的关系。也就是说每个输出向量都是充分考虑到它和四个输入向量的关系，因此后面的FC层也不仅仅只考虑一个输入向量，而是需要考虑四个输入向量，这就把上下文联系了起来，这就是一次self-attention，而self-attention是可以叠加的，可以针对一个句子进行多次self-attention。如果读到这有点懵逼也很正常，继续往下看。

重点来了

我们设输入到self-attention的四个向量分别为 $a^1, a^2, a^3, a^4$ ，经过self-attention之后的输出向量为 $b^1, b^2, b^3, b^4$ ，每一个输出向量都是充分考虑所有的输入向量之后得到了的，也就是说 $b^1$ 是根据 $a^1, a^2, a^3, a^4$ 得出的， $b^2$ 也是根据 $a^1, a^2, a^3, a^4$ 得出的。下面这张图可以很好的表示。下面以 $b^1$ 为例进行说明。

在这里插入图片描述

根据 $a^1$ 寻找和 $a^1$ 有关的其他输入向量也就是说计算 $a^2, a^3, a^4$ 这三个向量和 $a^1$ 的相关度，这里用 $\alpha$ 来表示

在这里插入图片描述
求 $\alpha$ 的方法主要有两种：Dot-product 和 Additive，比较常用的是Dot-product，这里只介绍Dot-product，想了解第二种方法的童鞋可以观看原视频、

Dot-product

将输入的两个向量分别乘一个矩阵 $W^q$ 和 $W^k$ 之后得到的向量 $q$ 和向量 $k$ ，之后两个向量求点积可得到 $\alpha$ .，即 $\alpha = q \centerdot k$
在这里插入图片描述
那怎么将 $\alpha$ 用到self-attention里呢？用 $a^1$ 分别与 $a^2, a^3, a^4$ 相乘计算 $a^1$ 和 $a^2, a^3, a^4$ 之间的相似度，这里我们设：
$q^1=W^q \alpha^1$ $k^2=W^k a^2$ $k^3=W^k a^3$ $k^4=W^k a^4$

$q^1$ 我们称之为query， $k^2, k^3, k^4$ 我们称之为key，那么 $\alpha_{12} = q^1 \centerdot k^2$ $\alpha_{12}$ 表示 $a^1和a^2$ 的相似度，称为attention score，同理可得
$\alpha_{13} = q^1 \centerdot k^3$ $\alpha_{13} = q^1 \centerdot k^4$ $\alpha_{14} = q^1 \centerdot k^4$ 除此之外，也要计算自相关性，也就是 $\alpha_{11} = q^1 \centerdot k^1$ 之后进行将 $\alpha_{11}, \alpha_{12}, \alpha_{13}, \alpha_{14}$ 输入到softmax层（softmax不是唯一选择，也可以使用其他激活函数）得到 $\alpha'_{11}, \alpha'_{12}, \alpha'_{13}, \alpha'_{14}$ ，整个过程如下图所示。在这里插入图片描述

得到 $\alpha'$ 我们就知道了 $a^1$ 和其他输入向量之间的关系强弱，下面就根据这个关系从中提取重要信息。

我们设一个矩阵 $W^v$ 和四个向量 $v^1, v^2, v^3, v^4$ ，其中 $v^1 =W^v a^1$ $v^2 =W^v a^2$ $v^3 =W^v a^3$ $v^4 =W^v a^4$ 之后将每一个attention score和对应的 $v$ 相乘后求和即可得到 $b^1$ ，即 $b^1=\sum_i \alpha'_{1i} v_i$ 在这里插入图片描述
假如 $a^1$ 和 $a^2$ 的相关度越大，也就是 $\alpha'_{12}$ 越大，那么 $b^1$ 的值就越接近 $v^2$ ，同理，若 $a^1$ 和 $a^3$ 的相关度越大，也就是 $\alpha'_{13}$ 越大，那么 $b^1$ 的值就越接近 $v^3$ ，这一点一定要想明白。
同理 $a^2$ 和其他输入向量的相关度 $\alpha'_{21}=softmax(q^2 k^1)$ $\alpha'_{22}=softmax(q^2 k^2)$ $\alpha'_{23}=softmax(q^2 k^3)$ $\alpha'_{24}=softmax(q^2 k^4)$ 因此 $b^2=\alpha'_{21}v^1+\alpha'_{22}v^2+\alpha'_{23}v^3+\alpha'_{24}v^4$

下面从矩阵的角度分析self_attention

根据上面的分析可知，每一个输入向量 $a^i$ 都要有 $q^i, k^i, v^i$ 与之对应，且 $q^i=W_q a^i$ ，也就是说 $q^1q^2q^3q^4=W^q[a^ 1a^2a^3a^4]$ 这里我们将 $a^1, a^2, a^3, a^4$ 用一个矩阵 $I$ 表示，将 $q^1, q^2, a^3, q^4$ 用矩阵 $Q$ 表示，因此上式可以写为 $Q=W^qI$ 同理，用矩阵 $K$ 表示 $k^1, k^2, k^3, k^4$ ，用矩阵 $V$ 表示 $v^1, v^2, v^3, v^4$ ，因此有 $K=W^kI$ $V=W^vI$ 在这里插入图片描述

从矩阵的角度求解相关度 $\alpha_{1i}$

根据前面的分析， $a^1和a^i的相关度\alpha_{1i}=q^1 k^i，携程矩阵的形式就是\alpha_{1i}=(k^i)^T q^1$ ，那么 $\alpha_{11}, \alpha_{12}, \alpha_{13}, \alpha_{14}$ 就可以写成 $k^1)^T, (k^2)^T, (k^3)^T, (k^4)^T] *q^1$ ， $\alpha_{2i}, \alpha_{3i}, \alpha_{4i}$ 同理。我们将它们写到一个大矩阵中在这里插入图片描述