2021SC@SDUSC
背景
关键词短语生成旨在用一系列突出的短语来总结长文档。深度神经模型已经证明在这项任务中取得了的成功,能够预测文件中甚至缺少的关键词短语。然而,这种关键词短语的提取耗费了大量注释数据。由此,我们提出了一种无需任何人工注释的监督的新方法去生成关键词短语——“AutoKeyGen”。
关键词短语生成旨在生成一个简短短语列表,以总结和描述一个长文集(例如,研究论文和新闻文章)。它有广泛的应用程序,仅举几例,信息检索,文本总结和文本分类。 在现行的关键词短语生成方法中,缺失关键词短语的生成能力(即短语在原始文档中不存在)十分依赖于与对文档关键词短语的监督。
提取摘要的方法只能预测出现在原始文档中的短语。然而这类方法大多不需要任何直接的监督,他们在各种文本类型中应用表现出极大的稳健性。一些研究将提取范围从输入文件扩大到其邻居文件,但他们仍然不能很好地预测缺失的关键词短语。有研究表明,在科学研究性文件中,源文本中缺少关键词的多达50%,但这些文档可能有助于搜索和推荐等应用程序。
随着深度神经网络的进步,最近的研究能够根据与文档的语义关联性生成关键词短语,无论是否缺失。虽然这些方法已经取得了最先进的性能,所有这些深度模型都受到监督并且需要大量的文件键字对。这需要昂贵和费力的收集。例如,Meng等人利用超过50万篇作者注释的科学论文来训练RNN模型。Xiong等人收集了 68,000 个网页,并使用专业注释器进行注释。
目的
在此系列报告中,我们旨在通过提出一种不受监督的方法来缓解缺失关键词短语的生成能力对监督方法的依赖。这种方法可以在不使用任何人类注释的情况下,生成存在和不存在的关键词短语。
启发
我们注意到,文档缺失的关键词短语可以作为关键词短语出现在其他文档中。此外,许多缺失的关键词短语实际上以单独的符号出现在原始文稿中。例如,在 Inspec 数据集(关键词短语生成中的基准数据集之一)中,99% 的缺失的关键词短语可以在其他文档中找到。对于56.8% 的缺失关键短语,他们的符号均单独地出现在输入文档中。
即,在一份文档中,缺失的关键词短语可以完整或部分地出现在其他地方。
AutoKeyGen方法
(1)首先通过将所有短语汇集到语料库中来构建短语库。 (2)通过构建出的短语库,用局部匹配处理过程写出每个文档的候选缺失关键词短语。 (3)把两种候选关键词短语的词汇(TF-IDF)和语义相似性和输入文档相结合,从而对两种候选关键词短语进行评级。 (4)利用这些顶级候选人来为更多缺失的关键短语培养一个深度生成模型。这种生成模型通过偏置的光束搜索方法从输入文档而非从词汇中预测单词,从而增加缺少的关键词短语。
结果
大量实验证明,AutoKeyGen性能优于所有无人监督的方法,在某些情况下甚至优于监督方法。
|