[人工智能] Transformer

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Transformer -> 正文阅读

[人工智能]Transformer

从全局角度概括Transfomer

在这里插入图片描述

6个encoder结构是完全相同的（但参数上不同），6个decoder结构是完全相同的（但参数上不同）。

先来介绍下input embedding和output embedding：

input embedding是编码器的输入，output embedding是解码器的输入。

input embedding和output embedding 是通过token embedding matrix 得到的，需要先构建token embedding matrix，维度是vocab_size乘d_model（vocab_size是词汇量的大小，d_model是词向量的长度，也就是说每一个词都用一个d_model维的向量表示，所有的词合起来就构成了这个矩阵），然后用tf.nn.embeddinglookup函数在matrix里按照x查询得到input embedding，x是由词的id构成的向量，设x的长度为T1，那么最终得到的input embedding的维数就是T1乘d_model。output embedding和input embedding的得到方式相同，不同的地方在于把x换成decoder_inputs，以机器翻译为例，要把T1长的英文翻译成T2长的中文，那么x是T1长的英文词id，decoder inputs就是对应T2长的中文词id，所以最终得到的output embedding是T2乘d_model维。

位置编码详细解读

在这里插入图片描述

rnn共享一套参数
就算你有100个timestamp（100个字、100个词）但是只有一套参数（U、W、V）
rnn梯度消失：rnn的梯度是梯度和，梯度消失不是变为0而是总梯度被近距离梯度阻挡，远距离梯度忽略不计

rnn的输入有先后，transfomer的输入是一起处理的，这样做增快了速度，但是忽略单词的先后关系，所有transfomer要位置编码
在这里插入图片描述

我爱你
pos我，k爱，pos+k你

多头注意力机制详解

在这里插入图片描述

Q先和K点乘，反应两个向量之间的相似度

详细介绍一下
在这里插入图片描述

attention：将特征和目标进行相似度匹配（Y1和X1～4，Y2和X1～4，Y3和X1～4）

g(x)是一个加和函数

query是汤姆，key1是Tom，key2是Chase，K3是Jerry

value和key是同一个东西

在这里插入图片描述
自注意力机制指的是QKV是同一个东西，也就是Tom chase jerry

在这里插入图片描述

这里的embedding加上了位置编码

在这里插入图片描述

多头将原始信息打到不同的空间

残差详解

在这里插入图片描述

残差结构确保不会出现梯度消失

Batch Normal详解

在这里插入图片描述
BN在NLP中效果很差，所以大多数情况下使用LN

在这里插入图片描述
BN针对所有样本的每一个特征

Layer Normal详解

在这里插入图片描述

不能我和今、爱和天、中和天这么做均值和方差（BN）
而应该我爱中国共产党、今天天气真不错做均值和方差（LN）

Decoder详解

在这里插入图片描述

因为在预测阶段是没有后面的信息的，所以需要mask

encode的KV，decode的Q

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-08-19 19:04:57 更:2022-08-19 19:06:43

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/28 2:33:36-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码