IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Transformer -> 正文阅读

[人工智能]Transformer

从全局角度概括Transfomer

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
6个encoder结构是完全相同的(但参数上不同),6个decoder结构是完全相同的(但参数上不同)。
在这里插入图片描述
先来介绍下input embedding和output embedding:

input embedding是编码器的输入,output embedding是解码器的输入。

input embedding和output embedding 是通过token embedding matrix 得到的,需要先构建token embedding matrix,维度是vocab_size乘d_model(vocab_size是词汇量的大小,d_model是词向量的长度,也就是说每一个词都用一个d_model维的向量表示,所有的词合起来就构成了这个矩阵),然后用tf.nn.embeddinglookup函数在matrix里按照x查询得到input embedding,x是由词的id构成的向量,设x的长度为T1,那么最终得到的input embedding的维数就是T1乘d_model。output embedding和input embedding的得到方式相同,不同的地方在于把x换成decoder_inputs,以机器翻译为例,要把T1长的英文翻译成T2长的中文,那么x是T1长的英文词id,decoder inputs就是对应T2长的中文词id,所以最终得到的output embedding是T2乘d_model维。

位置编码详细解读

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
rnn共享一套参数
就算你有100个timestamp(100个字、100个词)但是只有一套参数(U、W、V)
rnn梯度消失:rnn的梯度是梯度和,梯度消失不是变为0而是总梯度被近距离梯度阻挡,远距离梯度忽略不计

rnn的输入有先后,transfomer的输入是一起处理的,这样做增快了速度,但是忽略单词的先后关系,所有transfomer要位置编码
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
我爱你
pos我,k爱,pos+k你

多头注意力机制详解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Q先和K点乘,反应两个向量之间的相似度


详细介绍一下
在这里插入图片描述
在这里插入图片描述
attention:将特征和目标进行相似度匹配(Y1和X1~4,Y2和X1~4,Y3和X1~4)
在这里插入图片描述
在这里插入图片描述
g(x)是一个加和函数
在这里插入图片描述
在这里插入图片描述
query是汤姆,key1是Tom,key2是Chase,K3是Jerry
在这里插入图片描述
在这里插入图片描述
value和key是同一个东西

在这里插入图片描述
自注意力机制指的是QKV是同一个东西,也就是Tom chase jerry
在这里插入图片描述
在这里插入图片描述


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里的embedding加上了位置编码

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
多头将原始信息打到不同的空间

残差详解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
残差结构确保不会出现梯度消失

Batch Normal详解

在这里插入图片描述
BN在NLP中效果很差,所以大多数情况下使用LN
在这里插入图片描述

在这里插入图片描述
BN针对所有样本的每一个特征
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Layer Normal详解

在这里插入图片描述
在这里插入图片描述
不能我和今、爱和天、中和天这么做均值和方差(BN)
而应该我爱中国共产党、今天天气真不错做均值和方差(LN)
在这里插入图片描述

Decoder详解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
因为在预测阶段是没有后面的信息的,所以需要mask
在这里插入图片描述
在这里插入图片描述
在这里插入图片描
在这里插入图片描述
encode的KV,decode的Q
在这里插入图片描述
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-08-19 19:04:57  更:2022-08-19 19:06:43 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 23:14:08-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码