| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> Transformer总结 -> 正文阅读 |
|
|
[人工智能]Transformer总结 |
Transformer总结文章目录前言
通过学习对比,李宏毅老师在Transformer模型的讲解上略逊色与李沫老师,这是学习李沫老师论文精讲的批注,共享在网盘上了 一、Sequence-to-Sequence模型??Sequence-to-Sequence是一种输入输出均为一个序列的模型,也被简称为Seq2seq模型,它的特点是模型的输出长度是不确定的,有可能比输入长,也可能比输入短,且输出的长度由模型自己决定。 二、Transformer模型
??Transformer模型通常由两部分组成,一部分是encoder,另一部分是decoder。需要先将输入送入到encoder部分中,encoder模块对输入进行处理后送入decoder部门进行解码输出, 1.encoder
??在encoder部分,输入时一排向量,输出是一排与输入个数相同的向量,中间处理的核心就是多个self-attention叠加而成的block
2.decoder2.1Autoregressivedecoder有两种形式,分别是Autoregressive和 Non Autoregressive ??首先把encoder的输出读到decoder中,模型自己会给decoder输入一个BEGIN(或BOS),表示此时开始,这个BEGIN将对应第一个输出。(在完成语音识别的Seq2seq模型中,输出是一个汉字,这个汉字将用一个长度为vocabulary库长度的序列表示,即vocabulary库中有多少个字该向量就有多少行,在这个输出的向量中,每个字对应一个数字,表示输出是这个字的可能性,对这个向量使用softmax使其和为1。)此时模型的BEGIN对应了第一个输出,然后将第一个输出再送入decoder中来预测下一个输出。 下面我们来了解一下decoder内部结构 2.2 Non Autoregressive??下面我们简述一下Non Autoregressive形式的decoder Non Autoregressive的优势:平行化的输入输出,运行的更快, 比较能控制输出的长度。 2.3cross attention
??通过对比不难发现它们最大的差别在于decoder比encoder多红框这个部分,正是这个Cross attention部分将它们连接在一起。 3.Training过程??在语音辨识的训练中,有一段声音讯号作为输入,对应的中文文字作为输出。训练集的标签为一段语言和对应的正确的中文,中文用独热码来表示。decoder的输出是一个概率的分布,希望不正确字符的概率越小越好,每一个输出都和正确答案计算一个交叉熵,我们希望交叉熵的总和最小。 |
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/6 20:56:14- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |