| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> transformer机制 -> 正文阅读 |
|
|
[人工智能]transformer机制 |
transformer机制 – 潘登同学的深度学习笔记文章目录应用了残差思想的self-Attention Encoder
简单来说就是每一层的输入都会加到每一层的结果上去,然后做Layer Normalization 加入位置信息Position Embedding注意到前面说的Self-attention是没有位置信息的,对于相同输出
b
1
,
b
3
b_1,b_3
b1?,b3?来说,输入句子 在原论文中是拿了一个预训练的Position Embedding,直接与Embedding层进行加和,得到Encoder的输入,其实也可以自己训练,原理就是在词向量加上位置信息的向量,如下图所示
对输入 x l ? 1 x_{l*1} xl?1?拼接上一个位置向量,扔到Embedding层中去等同于,用一个位置矩阵 W K ? P W_{K*P} WK?P?与位置向量 P P ? 1 P_{P*1} PP?1?相乘得到的 e K ? 1 e_{K*1} eK?1? 加上 词嵌入矩阵 W K l W_{K_l} WKl??与词向量 x l ? 1 x_{l*1} xl?1?相乘得到的 α K ? 1 \alpha_{K*1} αK?1?;
transformer模型详解整体模型 模型内部 Encoder部分我们已经研究的比较透彻了,现在重点关注Decoder层,一个Decoder有两层,一层是self-Attention,另一层也是Self-Attention,但是这两者略有不同 Decoder的第一层self-AttentionDecoder block 的第一个 Multi-Head Attention 采用了 Masked 操作,因为在翻译的过程中是顺序翻译的,即翻译完第 i 个单词,才可以翻译第 i+1 个单词。通过 Masked 操作可以防止第 i 个单词知道 i+1 个单词之后的信息。 算法步骤(引用自Transformer模型详解)
Decoder的第二层self-Attention第二层self-Attention与Encoder中self-Attention主要的区别在于其中 Self-Attention 的 K, V矩阵不是使用 上一个 Decoder block 的输出计算的,而是使用 Encoder 的编码信息矩阵 C 计算的。 简单来说,就是输入self-Attention的有两个向量,一个向量是从Encoder的output拿过来与矩阵 W K , W V W^K,W^V WK,WV相乘,得到 K, V ;另一个向量是从第一层self-Attention中拿过来,与矩阵 W Q W^Q WQ相乘得到Q矩阵;然后后续的计算方法与Encoder部分一样 tention中拿过来,与矩阵 W Q W^Q WQ相乘得到Q矩阵;然后后续的计算方法与Encoder部分一样 理解为啥第二层不需要做mask回想Self-Attention,是用Q分别与K內积,得到相似度权重,最后与V相乘得到上下文向量;这点很关键,因为第一层mask输出结果当做Q,Encoder的输出当做KV,Q只要一个,而KV有很多,这满足了self-attention的要求(我就是搞反Q和V了, 死活也想不明白, 为什么第二层不做mask)
|
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/29 12:41:35- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |