[人工智能] 论文阅读：CogLTX: Applying BERT to Long Texts

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文阅读：CogLTX: Applying BERT to Long Texts -> 正文阅读

[人工智能]论文阅读：CogLTX: Applying BERT to Long Texts

总结：

清华大学和阿里联合发布论文使用BERT解决长文本问题。bert在长文本处理一般分为三种方法：截断法、Pooling法、压缩法。本文用的是效果最好的压缩法。

摘要

BERT不能处理长文本，因为它的内存和时间消耗呈二次增长。解决这个问题的最自然的方法，如用滑动窗口对文本进行切片，或者简化transformer，使用不充分的长范围attention，或者需要定制的CUDA内核。BERT的最大长度限制提醒我们人类工作记忆的容量是有限的(5个～9个区块)，那么人类是如何认知长文本的呢?本文提出的CogLTX 框架基于Baddeley提出的认知理论，通过训练一个判断模型来识别关键句子，并将其串接进行推理，并通过排练和衰减实现多步骤推理。由于相关性注释通常是不可用的，我们建议使用干预来创建监督。作为一种通用算法，CogLTX在不依赖于文本长度的内存开销情况下，在各种下游任务上优于或获得与SOTA模型相当的结果。

背景

长文本的挑战。长文本的挑战。对长文本的直接和表面障碍是在BERT[12]中预先训练的最大位置嵌入通常为512。然而，即使提供了更大位置的嵌入，内存消耗也是难以承受的，因为所有的激活都存储在训练期间的反向传播。例如，一个1500-token文本需要大约14.6GB的内存才能运行bert -即使批量大小为1，也很大，超过了普通gpu的容量(例如，1个token文本)。11GB的RTX 2080ti)。此外，O(L2)空间复杂度意味着随着文本长度L的增加而快速增加。

相关的工作。滑动窗口法缺乏远距离关注。均值池、max-池或额外的MLP或LSTM来聚合每个窗口的结果，但这些方法在长距离交互时仍然很弱，需要O(5122·L/512) = O(512L)空间，这在实践中仍然太大，无法在批量大小为1的RTX 2080ti上训练2500令牌文本的BERT-large。此外，这些晚聚合方法主要是对分类进行优化，而其他任务，如广度提取，输出L BERT值，需要O(L2)空间进行自注意聚合。