| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【五】Transformer -> 正文阅读 |
|
[人工智能]【五】Transformer |
目录 Decoder两个类别:autoregressive v.s non-autoregressive /缩写为:AT v.s NAT ? ????????是一个seq2seq模型,输入是一个序列,输出是一个序列,输出序列的长度由机器决定 ? ? ? ? seq2seq的应用:可以解决很多的Q&A问题,可以看做一个万能模型?
?s2s起源: 代表:? transformer's encoder??
? transformer's?decoder?????????从常见的autoregressive 语音辨识讲起,encoder得到一排输出之后,读入decoder,首先设定一个开始符号(可以是独热编码),decoder输出一个向量。decoder会把自己的输出作为接下来的输入,所以有可能一错皆错erro propagation?问题如何解决? Decoder两个类别:autoregressive v.s non-autoregressive /缩写为:AT v.s NATAT:输入begin,输出w1,输入w1,输出w2,直到end NAT:给多少个begin,就直接给出全部的输出。如何决定要给几个begin?另外学习一个分类器,先做分类、直接给一堆开始,看什么地方输出了end。 ? ? ? ? 优点:并行、可控的输出长度 ? ? ? ? 缺点:NAT往往不如AT的表现,为什么不好?因为multi-modality问题 ? decoder内部结构暂时不看encoder的输入 ? encoder与decoder相差的就是
?
怎么做训练的?
训练transformer(也可以是s2s模型)的tips
? ? 总结
? ???????? ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/22 9:52:29- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |