[人工智能] 浅浅懂了一些transformer中的self-attation

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 浅浅懂了一些transformer中的self-attation -> 正文阅读

[人工智能]浅浅懂了一些transformer中的self-attation

?参考：Transformer模型详解（图解最完整版） - 知乎

如何理解attention中的Q,K,V？ - 知乎

注意力机制到底在做什么，Q/K/V怎么来的？一文读懂Attention注意力机制 - 知乎

正如很多人说，其中灵魂就是下面这个公式：

?简单说，就是。输入的词汇会变成嵌入。就是高维数据！这称为矩阵X！

Self-Attention 接收的是输入(单词的表示向量x组成的矩阵X) 或者上一个 Encoder block 的输出。

之后，经过三个可训练的参数矩阵生成Q、K、V这三个都是维度相同的！

第一波，Q矩阵乘以K的转置矩阵。这个核心思想，就是两个向量点乘就是计算二者的相似性程度大小。

向量点乘的几何意义是：
向量在向量方向上的投影再与向量的乘积，能够反应两个向量的相似度。
向量点乘结果大，两个向量越相似。

自注意力机制，也就是包含着本身的一些字符串。

【换句话说，如果K、V矩阵不是由上面的X矩阵生成的话，那么就叫做注意力机制啦。

因为这样的点乘也是计算相似性程度的！】

Q、K这两个矩阵点乘之后，除以的那个分母，是为了缩小方差，使得梯度更加稳定（就是数值之间的差值比较小的意思呗！）。

也是为了更好的进行softmax操作。

对啦，softmax就是进行归一化操作。使得最终生成的数值的和是1！

最终，经过这些操作（也就是与矩阵V点乘之前的操作。）是得到了一个注意力权重矩阵。

与V矩阵的点乘，就是将注意力权重值与V矩阵中的特征进行加权求和！

最终，得到的输出维数大小，是与输入数据维数大小相同！

多头注意力

为了增强拟合性能，Transformer对Attention继续扩展，提出了多头注意力（Multiple Head Attention）。刚才我们已经理解了，Q、K、V是输入X与WQ、WK和WV分别相乘得到的，WQ、WK和WV是可训练的参数矩阵。现在，对于同样的输入X，我们定义多组不同的WQ、WK、WV，比如W0Q、W0K、W0V，W1Q、W1K和W1V，每组分别计算生成不同的Q、K、V，最后学习到不同的参数。