IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> NLP(五十二)抽取式词义消歧(WSD) -> 正文阅读

[人工智能]NLP(五十二)抽取式词义消歧(WSD)

??在文章NLP入门(九)词义消岐(WSD)的简介与实现中,笔者介绍了词义消歧的含义以及如何使用简单的算法来实现词义消歧。在本文中,笔者将介绍如何使用抽取式NLP模型来实现词义消歧(WSD),模型灵感来源于论文ExtEnD: Extractive Entity Disambiguation
??所谓词义消岐,指的是在特定的语境中,识别出某个歧义词的正确含义,即通常所说的一词多义。比如,苹果一词在句子我今天吃了一个苹果和句子苹果手机好用吗?中的含义是不同的,词义消歧需要对同一词语判断其在特定语境下的含义。词义消歧与实体链接有分别又有联系,后面将会介绍。
??在通常的NLP模型中,常常会把词义消歧任务当做文本分类去完成,取得了不错的效果。但论文ExtEnD: Extractive Entity Disambiguation提出了一种新的范式,它通过抽取式NLP模型(即阅读理解模型)来完成词义消歧,也取得了不错的效果。

词义消歧与实体链接

??应当说,词义消歧属于实体链接中的一部分。在实体链接(Entity Linking)任务中,一般分为三个阶段:

  • 实体识别
  • 候选词生成
  • 候选词匹配

在词义消歧中,同一词语的不同义项会作为候选词生成,在第三阶段的候选词匹配找到最接近的那个义项。我们以实体本草纲目为例,其在百度百科中共有15个义项,如下:
百度百科中的本草纲目义项
在特定的句子中,本草纲目的具体含义是可以确定的,看下面的例子:
实体链接例子
在上述句子中,本草纲目的正确义项应该是中医典籍,这是一个典型的实体链接任务,也可当作词义消歧任务。
??个人观点是,实体链接一般是将实体链接至图谱中的正确实体,而词义消歧稍微有点区别,绝大多数词语是图谱中的实体,但也有少部分仅仅是词语,而不是实体,比如汉语词语清风、指针等。因此,词义消歧可以通过实体链接很好地实现,但本文仅讨论如何通过抽取式NLP模型(新的范式)来实现词义消歧,以期该模型能在新的数据上有较好的表现。

数据介绍

??截止今日,笔者通过假期时间,共构建了26个词语,327个义项,2889条标注样本。绝大多数样本均来自于百度百科。每个样本均会给出文本、mention(待消歧词语)、正确义项以及url(正确义项对应网址),比如:

文本mention正确义项url
药圣李时珍和他的《本草纲目》本草纲目中医典籍https://baike.baidu.com/item/本草纲目/15342

??将标注数据划分为训练集和测试集,比例为8:2,训练集共有个2233样本,测试集共有656个样本。
??模型输入如下图:
模型输入
文本中的mention需要用特殊符号标识出来,比如用<e></e>标识,候选集集合组合输入为下一句,将</ec>标识添加至每个义项的结尾。

模型

??一般使用文本多分类或者文本多标签文本这个模型范式来进行正确义项匹配。本文借鉴Sapienza NLP Group, Sapienza University of Rome在ACL2022论文《ExtEnD: Extractive Entity Disambiguation》中给出的抽取式模型,使用较为简单的阅读理解模型(MRC)来实现。模型结构如下图所示:
抽取式词义消歧模型
??对标注数据进行模型训练,文本最大长度为500,batch size取16,训练12轮次,学习率取0.00001,在测试集上的Exact Match为0.9029。

模型预测

1. 在原有词语义项上的预测结果

??我们对标注过的词语苹果进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:【苹果的做法大全_苹果怎么做好吃_菜谱大全】_下厨房
正确义项:蔷薇科苹果属植物

苹果2022财年Q2业绩:手机业务增长亮眼 转型初见成效-股票…
正确义项:苹果产品公司

2. 在新词语义项上的预测结果

??我们对未标注过的词语南京进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:南京的饮食以金陵菜著名,金陵菜是指以南京为中心,一直延伸到江西九江的菜系,是苏菜的四大代表菜之一。
正确义项:江苏省辖地级市、省会

文本:影片制片人莱昂西斯是在2004年萌发拍摄纪录片《南京》的念头的。
正确义项:美国2007年雨果·阿姆斯特朗主演的电影

??我们对未标注过的词语平凡的世界进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:《平凡的世界》:永恒的魅力–文史–中国作家网
正确义项:路遥著长篇小说

文本:《平凡的世界》的主演是谁
正确义项:2015年王雷、佟丽娅、袁弘主演电视剧

??我们对未标注过的词语碧血剑进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:《碧血剑》是当代作家金庸先生的长篇武侠小说。大家都知道金庸老先生的著名小说都被翻拍成了电视剧,《碧血剑》也不例外。
正确义项:金庸创作长篇小说

文本:2000年版《碧血剑》是由李添胜监制,林家栋、佘诗曼、江华领衔主演的古装武侠电视剧。故事还原度并不是很高,这部剧中我真的很喜欢佘诗曼扮演的阿九啊!
正确义项:2000年香港TVB版林家栋主演电视剧

总结

??本项目已经开源至Github,网址为:https://github.com/percent4/WSD_With_Text_Extraction
??如有任何疑问,欢迎交流~

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-05 11:19:11  更:2022-05-05 11:21:53 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 7:37:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码