开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【深度学习】04-01-自注意力机制（Self-attention）-李宏毅老师21&22深度学习课程笔记 -> 正文阅读

[人工智能]【深度学习】04-01-自注意力机制（Self-attention）-李宏毅老师21&22深度学习课程笔记

04-01-自注意力机制Self-attention

模型输入
- 文字处理
- 语音处理
- Graph
模型输出
- 类型一：一对一（Sequence Labeling）
- 类型二：多对一
- 类型三：多对多（由模型自定seq2seq）
序列标注问题 - 无上下文信息
序列标注问题 - 解决方法一：滑动窗口相邻向量信息
序列标注问题 - 解决方法二：Self-attention
Self-attention
- 如何保证每个输出都能分析所有输入上下文？ - 关联度
- 如何确定两个输入向量的关联程度α？- 计算关联度模组Dot-product & Additive
- 如何基于关联度抽取信息？- 加权求和
Self-attention 原理
多头注意力机制 (Multi-head Self-attention)
- 为什么需要多种注意力？- 相关性可能有多种
- 如何计算多头注意力中的相关性？- 按相关类型计算
注意力机制问题：没有位置信息
- 为什么需要位置信息？- 位置信息很重要
- 如何为Self-attention添加位置信息？- Positional Encoding
- - 如何表示位置信息 $e^i$ ？
自注意力机制的应用
- 语音处理
- 问题：超大输入序列导致复杂度很高 - Truncated Self-attention
- 图像处理
Self-attention Vs CNN
Self-attention Vs RNN
Self-attention 应用图论（GNN）
Self-attention 众多变形

模型输入

在这里插入图片描述

文字处理

无论是预测视频观看人数还是图像处理，输入都可以看作是一个向量，输出是一个数值或类别。然而，若输入是一系列向量（序列），同时长度会改变，例如把句子里的单词都描述为向量，那么模型的输入就是一个向量集合，并且每个向量集合的大小都不一样。
在这里插入图片描述

一种将单词表示为向量的方法：One-hot Encoding（独热编码）。

向量的长度就是世界上所有词汇的数目，用不同位的1（其余位置为0）表示一个词汇，如下所示：

apple = [1, 0, 0, 0, 0, …]
bag = [0, 1, 0, 0, 0, …]
cat = [0, 0, 1, 0, 0, …]
dog = [0, 0, 0, 1, 0, …]
computer = [0, 0, 0, 0, 1, …]

但是这种表示方式默认了所有词汇间没有任何关系，猫和狗都是动物这种关系在向量集中体现不出来，里面没有任何有意义的信息。

one hot representation编码的每个单词都是一个维度，彼此independent。

另一种将单词表示为向量方法：Word Embedding。

给单词一个向量，这个向量有语义的信息，一个句子就是一排长度不一的向量。将Word Embedding画出来，就会发现同类的单词就会聚集，因此它能区分出类别：

在这里插入图片描述

To learn more: https://youtu.be/X7PH3NuYW0Q (in Mandarin)

什么是 word embedding? - YJango的回答 - 知乎

语音处理

取一段语音信号作为窗口，可以将10ms内的信息描述为一个向量（帧），滑动这个窗口就得到这段语音的所有向量（一个向量集）。

在这里插入图片描述

Graph

社交网络的每个节点就是一个人，节点之间的关系用线连接。每一个人就是一个向量。

在这里插入图片描述

分子上的每个原子就是一个向量（每个元素可用One-hot编码表示），分子就是一堆向量。

在这里插入图片描述

模型输出

按照输入向量与输出标签的数量关系，可以分为一对一、多对一及多对多。

类型一：一对一（Sequence Labeling）

每个输入向量对应一个输出标签。
在这里插入图片描述

文字处理：词性标注（每个输入的单词都输出对应的词性）。
语音处理：一段声音信号里面有一串向量，每个向量对应一个音标。
图像处理：在社交网络中，推荐某个用户商品（可能会买或者不买）。
在这里插入图片描述

类型二：多对一

多个输入向量对应一个输出标签。
在这里插入图片描述

语义分析：正面评价、负面评价。
语音识别：识别某人的音色。
图像：给出分子的结构，判断其亲水性。
在这里插入图片描述

类型三：多对多（由模型自定seq2seq）

不知道应该输出多少个标签，机器自行决定。
在这里插入图片描述

翻译：语言A到语言B，单词字符数目不同
语音识别

接下来先讨论一对一类型。

序列标注问题 - 无上下文信息

序列标注：Sequnce Labeling

利用全连接网络，输入一个句子，输出对应单词数目的标签。

在这里插入图片描述

问题：当一个句子里出现两个相同的单词，并且它们的词性不同（例如：I saw a saw. 我看见一把锯子）。期望模型输出第一个saw为动词，第二个saw为名词，但是这种结构的神经网络不可能做到。

序列标注问题 - 解决方法一：滑动窗口相邻向量信息

解决：让神经网络考虑上下文，利用滑动窗口，每个向量查看窗口中相邻的其他向量的性质。

考虑整条语句分析的情况，需要获取整条语句的词汇信息，需要滑动窗口包含所有词汇的向量，这样会导致全连接神经网络的参数暴增，进而导致超大运算量甚至是过拟合。

所以，这种方法不能解决整条语句的分析问题，即语义分析。这就引出了 Self-attention 技术。

序列标注问题 - 解决方法二：Self-attention

输入整个语句的向量到self-attention中，输出相等个数的向量，且输出的每个向量都考虑输入的整个语句向量集的信息。
在这里插入图片描述

输入整个语句的向量到self-attention中，输出对应个数的向量，再将其结果输入到全连接网络，最后输出标签。以上过程可多次重复：
在这里插入图片描述

Google 根据自注意力机制在论文 Attention is all you need 中提出了 Transformer 架构，注意力机制在该论文之前就已经存在，但是是在此论文中将注意力机制称为Self-attention，并使其发扬光大。

self attention ：专注整个序列的信息。FC：专注某个位置的信息

Self-attention

在这里插入图片描述

每个输出b与所有输入a都相关。

如何保证每个输出都能分析所有输入上下文？ - 关联度

在这里插入图片描述

α 表示a1与a4的关联程度。又称为attention score。

在类似语义分析的任务场景中，每个输出b都需要分析所有a，但是使用滑动窗口又会导致参数量暴增，所以需要根据a1找出输入向量集中哪些向量与判断a1的类别相关。

如何确定两个输入向量的关联程度α？- 计算关联度模组Dot-product & Additive

在这里插入图片描述

下面的讲解以 Dot-product 为例。

在这里插入图片描述

注意：a1与自己也要计算关联程度。

【待补充】a1与自己计算关联程度的重要性？

在这里插入图片描述

计算出相关性之后，可加一层softmax层（也可以加别的激活函数，比如ReLu）。

注： $b^i (1≤i≤4)$ 是同时计算出来的， $\alpha_{i,j}$ 为 $q^i$ 和 $k^j$ 的内积，其中i表示 $q^i$ 是由 $a_i$ 计算出来的，j表示 $k^j$ 是由 $a_j$ 计算出来的。
在这里插入图片描述

如何基于关联度抽取信息？- 加权求和

在这里插入图片描述

Self-attention 原理

这里需要三个向量：Query，Key，Value。其解释参考文章《如何理解 Transformer 中的 Query、Key 与 Value》- yafee123
在这里插入图片描述

上述过程可以总结为：

① 输入矩阵 $I$ 分别乘以 $W^q，W^k，W^v$ 得到三个矩阵 $Q, K, V$ 。
② $A=K^TQ$ ，经过激活函数处理得到注意力矩阵 $A'=softmax(\frac {K^TQ}{\sqrt{d_k}})$
③ 输出 $O = V A^{'}$

即：
$\cdot softmax(\frac {K^TQ}{\sqrt{d_k}})$
其中， $\sqrt{d_k}$ 为向量长度。唯一要训练出的参数就是 $W^q，W^k，W^v$ 。

注意力系数计算：

阶段1：根据Query和Key计算两者的相似性或者相关性
阶段2：对第一阶段的原始分值进行归一化处理
阶段3：根据权重系数对Value进行加权求和，得到Attention Value

所有输入向量中，谁的 attention score 大，谁就能决定Attention Value，即b。

具体计算参考：动手推导Self-Attention

多头注意力机制 (Multi-head Self-attention)

为什么需要多种注意力？- 相关性可能有多种

有些任务（例如：翻译、语音辨识等）中，multi-head会得到更好的结果。

之前的例子，都是用Q去找K，来计算相关性。但是两个事物之间相关性可能有多种不同的类型。因此设置多个Q(head)，不同的Q来负责不同的相关性。

head的个数是超参数。

如何计算多头注意力中的相关性？- 按相关类型计算

在这里插入图片描述

如上述公式，在Multi-head的情况下，输入还是Q,K,V，输出是不同head的输出的拼接结果，再投影到 $W^0$ 中。其中，对每一个head，可以将 Q,K,V 通过不同的可学习的参数 $W^Q,W^K,W^V$ 投影到一个低维上面，再做注意力函数Attention，最后输出结果。

Query，Key，Value首先经过一个线性变换，然后输入到放缩点积attention，注意这里要做 h 次，其实也就是所谓的多头，每一次算一个头。而且每次Q，K，V进行线性变换的参数W是不一样的 $W^Q,W^K,W^V$ 。然后将 h 次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。