[人工智能] Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization阅读笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization阅读笔记 -> 正文阅读

[人工智能]Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization阅读笔记

Motivation:

现有的生成式对话摘要方法往往需要引入一些辅助信息，比如key words, dialog act,topic等等，来提高生成的摘要的信息性，相关性，减少摘要的冗余性。这些辅助信息的引入往往依赖于一些开源的工具，这些工具可能本身并不是针对于对话的，不能很好适应对话的特点，或者需要大量的手工标注。本文将DialogGpt改造成无监督的dialogue annotator,自动完成三种标记任务，Keywords Extraction，Redundancy
Detection，Topic Segmentation，下图给出了这三种任务的示例，keywords extraction是提取出对话中的关键词，redundancy detection的目标是发现冗余的语句，也就是对于对话的总体意思没有太大贡献的句子，Topic Segmentation的目标是根据topic将对话分成连续的若干段。用DialoGPT annotator对SAMSUM和AMI数据集进行标记，然后再用BART模型和PGN模型生成摘要。
在这里插入图片描述

Method

在这里插入图片描述

上图给出了DialoGPT annotator的总体架构：

Dialogue Preprocessing

首先将对原始的对话进行预处理，得到两种形式的输入，一种是context-response对，另一种是dialogue sequence ，将所有utterance拼接在一起，使用EOS分割。

DialoGPT Forward Passing

然后将预处理后的对话输入到DialoGPT中，进行forward pass。对于每对context-response，得到每个word的loss $loss_{i,t}$ 和每个utterance的loss $loss_t$ 。对于每个dialogue sequence，得到对话的上下文表示 $h_{EOS1},h_{EOS2},h_{EOS3},..h_{EOSD}=H(EOS)$

Annotation

利用Forward Pass的结果进行Annotation,包含三项任务，Keywords Extraction，Redundancy Detection，Topic Segmentation。

Keywords Extraction

作者认为keywords是unpredictable的词汇，如果golden response中的一个词很难被DialoGPT预测出来，这个词很可能包含了更多的信息，因此可以被视为key word。
在上一步得到了每个word $u_{i,j}$ 的loss $loss_{i,j}$ ,从对话中提取出loss最大的 $r_{ke}$ 比例的词作为key words,同时把所有的speaker的名字P也加入key words中，并添加一个特殊标记 $\#KEY$ ,最后得到标记后的dialogue为 $\mathcal{D}_{\mathrm{KE}}=[p_{1}, u_{1,1}, \ldots, \underbrace{\# \mathrm{KEY} \#, \mathbb{P}, \operatorname{Key}_{1}, \mathrm{Key}_{2}, \ldots}]$

Redundancy Detection

每个 $h_{EOSi}$ 可以看做是对话上下文 $u1,u2...u_i]$ 的表示，当添加一个新的utterance $u_{i+1}$ ，如果新的 $h_{EOSi+1}$ 和前一个 $h_{EOSI}$ 相似，就可以认为 $u_{i+1}$ 带来较少的信息，从而将 $u_{i+1}$ 看做冗余。
从最后两个对话上下文的表示 $h_{EOS|D|}$ 和 $h_{EOS|D-1|}$ 开始，计算之间的相似度，如果相似度得分超过预设的阈值, $u_{D}$ 就是一个冗余，如果没有超过阈值，就继续计算前两个句子的相似度重复这一过程直到开头。
在每个荣誉的句子之前添加一个特殊标志 $[R D]$ ,最后得到标记后的对话为 $D_{RD}=\left[p_{1},[\mathrm{RD}], u_{1,1}, \ldots, \operatorname{EOS}_{1}, \ldots, p_{|\mathcal{D}|}, \ldots, \text { EOS }_{|\mathcal{D}|}\right]$

Topic Segmentation

DialoGPT擅长生成上下文一致的对话，所以如果一句回复很难被DialoGPT预测，就认为这句回复属于另一个话题，在这里添加一个分隔。
在上一步得到了每个utterance的loss $loss_i$ ,选择loss最大的前 $r_{TS}$ 比例的utterances作为话题分割的断点,在每个选择的句子之前添加一个特殊标志 $[T S]$ ，最后得到标记后的对话为 $D_{TS}=\left[p_{1},[\mathrm{TS}], u_{1,1}, \ldots, \operatorname{EOS}_{1}, \ldots, p_{|\mathcal{D}|}, \ldots, \text { EOS }_{|\mathcal{D}|}\right]$