IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 9月7日论文复写 -> 正文阅读

[人工智能]9月7日论文复写

9月7日论文复写

XLNet: Generalized Autoregressive Pretrainingfor Language Understanding

NIPS2019 上的一篇文章,提出了一个XLNet自回归训练方法,影响也比较大
客观事实:
1、BERT这种基于去噪自动编码的预训练比基于自动回归语言建模的预训练方法取得更好的性能。
2、无监督表示学习在自然语言处理方面获得了极大地成功,这些方法都先在大规模无标记的文本语料库上预训练神经网络,然后在下游任务中再进行微调
3、自回归语言建模(AR)以及自动编码(AE)是是两个最成功的预训练目标

问题

1、BERT由于掩码(masks)对于输入的破坏,忽略了被遮掩位置之间的依赖性,以及受到了预训练-调整差异的影响

AR与AE模型

AR
用回归模型来估计文本语料的分布概率,比如前向乘积或者后项乘积。由于AR只被训练来编码单项语境,它不能有效地对深层双向语境进行建模。
AE
与AR相比,AE并不进行明确的密度估计,而是旨在从缺失的输出中重新构建原始数据。
BERT——最先进的预训练方法
但是BERT在预训练时使用的人工符号(如[mask])在调试时并不存在于真实数据当中,从而导致了预训练与调试的差异。并且由于输入时掩盖了预测的标记,BERT不能像AR一样使用乘积规则对联合概率进行建模。它预测的标记是相互独立的,与长距离的依赖性在自然语言中普遍存在的情况不符。

提出解决方法

提出XLNet,一种通用的自回归预训练方法,利用了AR和AE的优点,并且避免了其局限性

具体内容

1、通过最大化因式分解顺序的所有排列的预期可能性来学习双向语境
2、由于其自回归的特性,的克服了BERT的局限性,不依赖于数据缺失,每个位置学会利用来自所有位置的上下文信息。
3、将最先进的自回归模型Transformer-XL的语段复现机制和相对编码方案思想整合到预训练中
4、将序列的预期对数似然在因式分解顺序的所有可能的排列中最大化

结果

在可比的实验设置下,XLNet在20个任务上比BERT表现好,并且有很大的差距
领域包括:问题回答、自然语言推理、情感分析、文档排名

小结

1、继BERT之后提出的又一预训练模型,取得了良好的成绩
2、源码:https://github.com/zihangdai/xlnet


VAULT: VAriable Unified Long Text Representation for Machine Reading Comprehension.

机器阅读理解任务
要求机器基于给定的上下文回答问题,即给定一段context,对应的给一个query,机器通过阅读context后给出对应query的答案。在《
BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION》中最终预测的目标是输出两个下标,一分别对应query回答在context中的开始位置和结束为止。模型的损失函数为多分类的交叉熵softmax。

机器阅读理解近年来也成为一个比较火的领域。也有短文本和长文本之分。

问题

1、现有的机器阅读理解(MRC, Machine Reading Comprehension)模型需要复杂的模型结构,以此来保证对长文本进行段落表示和分类的有效性,但是这样做需要多时间。
2、基于图的方法在并行硬件上如GPU上效率低下,导致推断速度缓慢

提出解决方法

VAULT架构:轻量级、平行高效的段落表示,基于从长文档输入中得到的上下文表述的机器阅读理解。

具体方法

1、使用新的基于高斯分布的数据进行训练,密切关注那些接近正确标注的情况
ground-truth,指正确的标注,如<x,t>中争取的t标注就叫做ground-truth
2、引入一个基础模型(Longformer),使用每个段落的轻量级表示来对长文本建模
3、引入利用特殊标记的位置感知段落表示(PAPR),将其作为高效段落分类的输入。可以利用这些标记来确认答案段落位于哪一段。

结果

1、验证VAULT架构,在两个需要长文本建模的MRC基准数据集上进行试验,可以与SOTA(最先进的复杂文档建模方法)效果相同并且速度快16倍
2、也证明了模型可以适用于完全不同的领域,相比于之前的大型PLM(pre-train language model,预训练语言模型)微调模型有了大幅的进步

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-08 10:43:36  更:2021-09-08 10:45:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 15:37:45-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码