IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 无监督的关键词短语生成 -> 正文阅读

[人工智能]无监督的关键词短语生成

2021SC@SDUSC

背景

关键词短语生成旨在用一系列突出的短语来总结长文档。深度神经模型已经证明在这项任务中取得了的成功,能够预测文件中甚至缺少的关键词短语。然而,这种关键词短语的提取耗费了大量注释数据。由此,我们提出了一种无需任何人工注释的监督的新方法去生成关键词短语——“AutoKeyGen”。

关键词短语生成旨在生成一个简短短语列表,以总结和描述一个长文集(例如,研究论文和新闻文章)。它有广泛的应用程序,仅举几例,信息检索,文本总结和文本分类。
在现行的关键词短语生成方法中,缺失关键词短语的生成能力(即短语在原始文档中不存在)十分依赖于与对文档关键词短语的监督。

提取摘要的方法只能预测出现在原始文档中的短语。然而这类方法大多不需要任何直接的监督,他们在各种文本类型中应用表现出极大的稳健性。一些研究将提取范围从输入文件扩大到其邻居文件,但他们仍然不能很好地预测缺失的关键词短语。有研究表明,在科学研究性文件中,源文本中缺少关键词的多达50%,但这些文档可能有助于搜索和推荐等应用程序。

随着深度神经网络的进步,最近的研究能够根据与文档的语义关联性生成关键词短语,无论是否缺失。虽然这些方法已经取得了最先进的性能,所有这些深度模型都受到监督并且需要大量的文件键字对。这需要昂贵和费力的收集。例如,Meng等人利用超过50万篇作者注释的科学论文来训练RNN模型。Xiong等人收集了 68,000 个网页,并使用专业注释器进行注释。

目的

在此系列报告中,我们旨在通过提出一种不受监督的方法来缓解缺失关键词短语的生成能力对监督方法的依赖。这种方法可以在不使用任何人类注释的情况下,生成存在和不存在的关键词短语。

启发

我们注意到,文档缺失的关键词短语可以作为关键词短语出现在其他文档中。此外,许多缺失的关键词短语实际上以单独的符号出现在原始文稿中。例如,在 Inspec 数据集(关键词短语生成中的基准数据集之一)中,99% 的缺失的关键词短语可以在其他文档中找到。对于56.8% 的缺失关键短语,他们的符号均单独地出现在输入文档中。

即,在一份文档中,缺失的关键词短语可以完整或部分地出现在其他地方。

AutoKeyGen方法

(1)首先通过将所有短语汇集到语料库中来构建短语库。
(2)通过构建出的短语库,用局部匹配处理过程写出每个文档的候选缺失关键词短语。
(3)把两种候选关键词短语的词汇(TF-IDF)和语义相似性和输入文档相结合,从而对两种候选关键词短语进行评级。
(4)利用这些顶级候选人来为更多缺失的关键短语培养一个深度生成模型。这种生成模型通过偏置的光束搜索方法从输入文档而非从词汇中预测单词,从而增加缺少的关键词短语。

结果

大量实验证明,AutoKeyGen性能优于所有无人监督的方法,在某些情况下甚至优于监督方法。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-04 12:51:04  更:2021-10-04 12:51:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:23:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码