[人工智能] Transformer 中 Encoder 结构解读_by 弘毅

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Transformer 中 Encoder 结构解读_by 弘毅 -> 正文阅读

[人工智能]Transformer 中 Encoder 结构解读_by 弘毅

1. Seq2seq model

1.1 Seq2seq model 的应用场景

语音辨识，中文音频到中文文字，音频到文字
语言翻译，中文文字到英文，文字到文字；
语音翻译，中文音频到英文文字，结合上述两个；
世界上7000 多种语言，还有很多语言，还没有文字，
文本到语音：输入文本，输出音频；
用于文法解析（用于编译过程中，编译），seqseq for syntactic Parsing， “ Grammar as Foreign Language ” 14 年；
for Muli label calssifiction: 即同一个目标对象它同时属于多个标签；
区别于Mutil class, 多个类别中分类出一个类别；
for Object Detectiono;

2. Seq2seq model 组成模块

主成分两块：

Encoder
Decoder 部分；

2. Encoder 编码器

多个输入向量编码后得到多个输出向量
请添加图片描述

3. Transformer 中的 Encoder

Transformer 中的Encodr 编码器可以看做是多个Block 组成。
每个Block 在 self attention 的基础上增加了残差连接 + Layer Norm + FC；
注意，这里每一个Block 是模型中多个 Layer 所做的事情；

请添加图片描述

3.1 单个Block 中的内容

每个Block中包含了：
自注意力机制 + 残差链接 + LayerNorm + FC + 残差链接 + layer Norm, 此时的输出 = 一个 Block 的输出；

请添加图片描述

3.2 单个Block 中的具体实现步骤

原始的输入向量 $b$ 与输出向量 $a$ 残差相加得到向量 $a + b$ ；
注意， $b$ 是原始的输入向量，下图中输出向量 $a$ 是考虑整个序列的输入向量得到的结果；

请添加图片描述

  Layer Normation:   不需要考虑batch;
  同一个样本， 同一个 feature ,  不同的 dimeation 中 去计算 mean 和 方差；
  Batch Normalization: 
 不同的样本， 不同的特征，但是 同一个 dimeation 去计算  mean ，和方差；

将向量 $a + b$ 通过 Layer Normation 得到向量 $c$ ;

图中左侧部分：
在这里插入图片描述
图中右侧部分：

将向量 $c$ 通过 FC layer 得到向量 $d$ ;
向量 $c$ 与向量 $d$ 残差相加，得到向量 $e$ ；
向量 $e$ 通过 Layer Norm 输出向量 $f$ ，
此时得到的输出向量 $f$ 才是 Encoder中单个Block中的一个输出向量；

3.3 上述步骤的等价

上述步骤，便是原始论文Transformer 中,Encoder 的设计;

注意到，这里的Multi Head Attention 多头注意力，是 self attention 的基础上增加了 $q$ , $k$ , $v$ 的数量，从而称作是多头；
请添加图片描述

3.4 网络的优化

更改LayerNorm 的位置顺序；
更换层， layerNorm --> PowerNorm;

请添加图片描述

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-04-07 22:41:41 更:2022-04-07 22:45:13

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/13 21:41:27-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码