| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 从RNN到UniLM:NLP & DeepLearning技术发展历程。 -> 正文阅读 |
|
[人工智能]从RNN到UniLM:NLP & DeepLearning技术发展历程。 |
作者:recommend-item-box type_blog clearfix |
最近在研究NLG,看了很多资料顺便整理一下收获。 使用DeepLearning技术在NLP领域,最初是从RNN开始的。 模型词向量(Word2Vec)词向量早在2003年就被提出了,当时机器学习都不火,所以没引起注意。但是随着深度学习大行其道,词向量重新火了起来。 词向量的原理也很简单,通过比对两个字或词的上下文来判断两个字或词的相似程度,比如 “我” 和 “咱” 这两个词经常出现在类似的上下文中,所以它们计算得到的向量距离接近。 RNNRNN的R是recurrent,中文全称循环神经网络。 这种神经网络比传统的神经网络的优势是有记忆力。 在计算的过程中,除了有输入外,还会把上一次的计算产生的隐藏层也一并输入进来。 “一并输入进来”这个过程叫concat,具体做法其实很简单,就是把输入的向量和隐藏层的向量接起来。 比如输入向量长度是5, 隐藏层长度是128, 那么RNN的输入层长度就是128+5=133. LSTMLSTM 即 long short term memory。它其实本质也是一种RNN,但是内部模型结构不是简单的向量乘算。而是好几个矩阵,向量和计算,有点模仿电路设计,有各种门(遗忘门、输出门。。) LSTM还有一种简化计算复杂度的变种叫GRU。 Seq2Seq(Encoder2Decoder)TransformBERTUniLM |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/22 15:04:45- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |