IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Transformer 中 Encoder 结构解读_by 弘毅 -> 正文阅读

[人工智能]Transformer 中 Encoder 结构解读_by 弘毅

1. Seq2seq model

1.1 Seq2seq model 的应用场景

  1. 语音辨识, 中文音频到中文 文字, 音频到文字

  2. 语言翻译, 中文文字到英文, 文字 到文字;

  3. 语音翻译, 中文音频 到 英文 文字, 结合上述两个;
    世界上7000 多种语言,还有 很多语言,还没有文字 ,

  4. 文本 到语音: 输入文本,输出音频;
    请添加图片描述

  5. 用于文法解析(用于编译过程中, 编译),seqseq for syntactic Parsing, “ Grammar as Foreign Language ” 14 年;

  6. 请添加图片描述

  7. for Muli label calssifiction: 即 同一个目标对象 它同时属于多个标签;
    区别于Mutil class, 多个类别中 分类出一个类别;

  8. for Object Detectiono;

2. Seq2seq model 组成模块

主成分两块:

  1. Encoder
  2. Decoder 部分;
    请添加图片描述

2. Encoder 编码器

多个输入向量 编码后 得到多个输出向量
请添加图片描述

3. Transformer 中的 Encoder

  1. Transformer 中的Encodr 编码器可以看做是多个Block 组成

  2. 每个Block 在 self attention 的基础上 增加了残差连接 + Layer Norm + FC;

  3. 注意,这里每一个Block 是模型中多个 Layer 所做的事情;

请添加图片描述

3.1 单个Block 中的内容

  1. 每个Block中包含了:
    自注意力机制 + 残差链接 + LayerNorm + FC + 残差链接 + layer Norm, 此时的输出 = 一个 Block 的输出;

请添加图片描述

3.2 单个Block 中的具体实现步骤

  1. 原始的输入向量 b b b 与 输出向量 a a a 残差相加 得到 向量 a + b a + b a+b
    注意, b b b 是原始的输入向量,下图中输出向量 a a a 是考虑整个序列的输入向量得到的结果;

请添加图片描述

  Layer Normation:   不需要考虑batch;
  同一个样本, 同一个 feature ,  不同的 dimeation 中 去计算 mean 和 方差;
  Batch Normalization: 
 不同的样本, 不同的特征,但是 同一个 dimeation 去计算  mean ,和方差;
  1. 将向量 a + b a + b a+b 通过 Layer Normation 得到 向量 c c c;

图中左侧部分:
在这里插入图片描述
图中右侧部分:

  1. 将向量 c c c 通过 FC layer 得到 向量 d d d ;

  2. 向量 c c c 与向量 d d d 残差相加 ,得到向量 e e e

  3. 向量 e e e 通过 Layer Norm 输出 向量 f f f

  4. 此时得到的输出向量 f f f 才是 Encoder中 单个Block中的一个输出向量;

3.3 上述步骤的等价

上述步骤,便是原始论文Transformer 中,Encoder 的设计;

注意到, 这里的Multi Head Attention 多头注意力, 是 self attention 的 基础上增加了 q q q, k k k , v v v 的数量, 从而称作是多头;
请添加图片描述

3.4 网络的优化

  1. 更改LayerNorm 的 位置顺序;
  2. 更换层, layerNorm --> PowerNorm;

请添加图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-07 22:41:41  更:2022-04-07 22:45:13 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 11:38:25-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码