| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Low Resource对话摘要论文阅读笔记 -> 正文阅读 |
|
[人工智能]Low Resource对话摘要论文阅读笔记 |
Low Resource也是对话摘要任务中的一个研究重点,因为对话摘要的数据集相对偏少,最多也只有一万条数据,而且现实生活中也难以为长对话标注对应的摘要。这里记录两篇low resource对话摘要方面的论文 AdaptSum: Towards Low-Resource Domain Adaptation for Abstractive Summarization论文链接:https://arxiv.org/abs/2103.11332 主要动机与想法:生成式摘要模型依赖于大规模的摘要数据,需要大量的人工标注,很多领域并没有这样的数据。一种方法就是领用领域适应技术,利用新闻等大规模的摘要数据集来辅助特定领域的摘要任务。预训练的语言模型取得 了巨大的成功,进行第二次预训练是领域适应任务的一个有效方法,但之前很少有工作把二次预训练应用到文本生成任务上来。这篇文章通过进行第二次预训练来进行领域适应,完成低资源领域的摘要生成任务。 方法采用二阶段预训练方法,根据三种不同的设置,使用数据集对预训练的BART模型进行第二次预训练,然后再在目标领域的有标签数据集上进行微调。这里详细介绍一下这三种二次预训练的设置: 实验结果:代码链接https://github.com/TysonYu/AdaptSum Low-Resource Dialogue Summarization with Domain-Agnostic Multi-Source Pretraining论文链接:https://arxiv.org/abs/2109.04080 代码链接:https://github.com/RowitZou/DAMS 主要动机与想法之前的低资源的对话摘要的工作大多是直接利用其他领域(新闻)的数据进行预训练,但是这么做忽略了对话数据和传统文本(新闻,论文)等的巨大差异,这篇文章利用大规模的领域内的无监督数据分别训练编码器和解码器,再在有摘要标签的领域外数据上训练整个seq2seq模型。 方法这篇文章把整个序列到序列的预训练模型的训练分为三部分,编码器训练,解码器训练,整个序列模型的训练。具体来说,在大规模的无标注的无监督的对话数据上训练编码器,来学习对话建模和理解的方式,在大规模的summary-like短文本上训练摘要解码器,这些短文本都是日常闲聊风格的,这样就可以学习一个对话摘要生成风格的语言模型。最后,把编码器和解码器组合在一起,在外部的摘要数据集上预训练来完成总体的摘要生成。这里还设计了对抗性准则,来进行领域不可知的摘要,消减不同领域数据间的巨大差异。
Pretraining of dialogue modeling用去噪编码器(DAE)的方式来训练编码器,从而有效提取出对话的特征。用transformer作为DAE的编码器和解码器,将所有的utterance分词,随机mask掉每个utterance中一定比例的token,然后让DAE重构出原来的utterance Pretraining of summary language modeling解码器的训练方式类似,这里用BooksCorpus 数据集作为外部语料来训练解码器生成对话摘要风格的文本。还是和编码器一样引入噪声,用Transformer进行一次编码,因为解码器需要顺序的生成所有句子,所以预训练解码器时多引入一个Transformer,来混合上下文的信息,公式如下: Pretraining of abstractive summarization用领域外数据集(新闻摘要)来训练生成式摘要任务模型,重用上面预训练的对话编码器
T
F
θ
e
d
\mathrm{TF}_{\theta_{e}^{d}}
TFθed??和摘要解码器
T
F
θ
g
s
\mathrm{TF}_{\theta_{g}^{s}}
TFθgs??,这里在中间了添加了一个context encoder(见上面的架构图,也是Transformer)作为过渡,和训练解码器时的
T
F
θ
h
s
\mathrm{TF}_{\theta_{h}^{s}}
TFθhs??公式一样。 Domain-Agnostic Summarization with Adversarial Learning模型可能会学习到一些领域的特定特征,使得模型难以泛化到新的领域,这篇文章设计了一个对抗(adversial)准则,设计判别器区分不同领域的特征,利用gradient reversal 机制使得不同领域的特征分布尽可能的接近,使判别器难以区分,这样就可以产生领域无关的特征分布,使得模型只关注于内容而不是领域的特定特征。 Finetuning通过以上步骤完成了多来源的预训练,然后再把预训练得到的对话编码器,上下文编码器(context encoder),摘要解码器组合在一起,在具体的对话摘要任务数据集上微调 实验结果: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 20:20:24- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |