IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文阅读:CogLTX: Applying BERT to Long Texts -> 正文阅读

[人工智能]论文阅读:CogLTX: Applying BERT to Long Texts

总结:

清华大学和阿里联合发布论文使用BERT解决长文本问题。bert在长文本处理一般分为三种方法:截断法、Pooling法、压缩法。本文用的是效果最好的压缩法。


摘要

BERT不能处理长文本,因为它的内存和时间消耗呈二次增长。解决这个问题的最自然的方法,如用滑动窗口对文本进行切片,或者简化transformer,使用不充分的长范围attention,或者需要定制的CUDA内核。BERT的最大长度限制提醒我们人类工作记忆的容量是有限的(5个~9个区块),那么人类是如何认知长文本的呢?本文提出的CogLTX 框架基于Baddeley提出的认知理论,通过训练一个判断模型来识别关键句子,并将其串接进行推理,并通过排练和衰减实现多步骤推理。由于相关性注释通常是不可用的,我们建议使用干预来创建监督。作为一种通用算法,CogLTX在不依赖于文本长度的内存开销情况下,在各种下游任务上优于或获得与SOTA模型相当的结果。

背景

长文本的挑战。长文本的挑战。对长文本的直接和表面障碍是在BERT[12]中预先训练的最大位置嵌入通常为512。然而,即使提供了更大位置的嵌入,内存消耗也是难以承受的,因为所有的激活都存储在训练期间的反向传播。例如,一个1500-token文本需要大约14.6GB的内存才能运行bert -即使批量大小为1,也很大,超过了普通gpu的容量(例如,1个token文本)。11GB的RTX 2080ti)。此外,O(L2)空间复杂度意味着随着文本长度L的增加而快速增加。

相关的工作。滑动窗口法缺乏远距离关注。均值池、max-池或额外的MLP或LSTM来聚合每个窗口的结果,但这些方法在长距离交互时仍然很弱,需要O(5122·L/512) = O(512L)空间,这在实践中仍然太大,无法在批量大小为1的RTX 2080ti上训练2500令牌文本的BERT-large。此外,这些晚聚合方法主要是对分类进行优化,而其他任务,如广度提取,输出L BERT值,需要O(L2)空间进行自注意聚合。

CogLTX方法:

CogLTX的这个基本假设是“对于大多数NLP任务来说,文本中的几个关键句子存储了足够和必要的信息来完成任务”。

在CogLTX中,MemRecall和两个BERTs的联合训练是必不可少的。如图2所示,MemRecall是利用判断模型检索关键块的算法,在推理过程中将关键块送入推理机完成任务

文本分类

数据集和设置。文本分类是自然语言处理中最常见的任务之一,它对主题、情感、意图等进行分析是必不可少的。我们在经典的20个新闻组[22]上进行实验,该新闻组包含来自20个类的18,846个文档。我们给罗伯塔安排了6个时代的CogLTX。

结果。表3表明,CogLTX的相关性标签是由Glove[34]初始化的,它的性能优于其他基线,包括先前尝试从滑动窗口[33]聚合[CLS]池结果的结果。此外,基于MLP或LSTM的聚合既不能对长文本进行端到端训练。

Ablation的研究。

(1)由于20个新闻组中的文本长度差异很大(见图5),我们只在大于512的文本上进一步测试性能

(2)基于Glove的初始化虽然提供了较好的相关性标签,但由于没有进行干预调整,仍然导致准确率下降了2.2%。

(3) Bm25初始化基于常用语,由于标签名较短,只初始化了14.2%的训练样本,如sports.baseball。通过干预和逐步训练推理器推断相关句子,准确率达到86.1%。
?

参考:

1.论文地址:https://proceedings.neurips.cc/paper/2020/file/96671501524948bc3937b4b30d0e57b9-Paper.pdf

2.代码地址:https://github.com/Sleepychord/CogLTX

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-06 09:37:50  更:2021-08-06 09:38:00 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 14:39:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码