[人工智能] [论文笔记] XLORE2：大规模跨语言知识图谱构建与应用

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> [论文笔记] XLORE2：大规模跨语言知识图谱构建与应用 -> 正文阅读

[人工智能][论文笔记] XLORE2：大规模跨语言知识图谱构建与应用

在这里插入图片描述

论文地址：XLORE2: Large-scale Cross-lingual Knowledge Graph Construction and Application

ABSTRACT

XLORE2 有423974个跨语言链接。相比于XLORE增加了更多的跨语言知识链接、跨语言属性匹配、细粒度类型推断。构建了实体链接系统 XLink 证明了XLORE2的有效性。

1 介绍

基于Wikipedia，有DBpedia、YAGO、BabelNet等

YAGO：同一知识的跨语言语义统一性
DBpedia：跨语言事实三元组的提取和对齐
BabelNet：实体概念、意义和同义词集。

维基百科包含的英文知识最多，存在不同语言的知识分布不平衡的问题。为了解决这个问题，XLORE 成为了第一个中英文知识均衡的大规模跨语言知识库。它提供了一种通过利用维基百科中的跨语言链接来构建跨任何两种语言的知识图谱的新方法。虽然XLORE已经拥有比较均衡的双语知识量，但仍有大量缺失事实需要补充。主要包括以下三种：

英文实例和中文实例之间的跨语言链接数量有限。发现更多的跨语言链接有利于跨语言的知识共享；
每个语言版本都维护自己的一组infobox和自己的一组属性，有时还为相应的属性提供不同的值。因此，必须匹配不同语言的属性；
实例的类型信息不完整。例如，姚明不仅应该被分配到人、运动员和篮球运动员，还应该被分配到商人。

相应的工作包括：跨语言知识链接、跨语言属性匹配、细粒度类型推断

跨语言知识链接：链接不同语言的等效实例
跨语言属性匹配：实体属性因子图，匹配中英文的属性
细粒度类型推断：为没有类型信息的实例推断类型（区分类别的subClassOf & instanceOf的类型，使得分类更加准确）

为了证明XLORE的丰富性，构建了一个高效的实体链接系统XLINK（将文档中的mention链接到各种实体）

2 相关工作

DBpedia：
- 语义网 + 关联数据技术
- 规模大、覆盖语言广
- 定期发布、有一个实时更新的知识库
YAGO：
- 可扩展的语义知识库
- 有较高的数据质量
- 类型信息：使用 Wikipedia 中的类别来推断实体的类型信息，然后将该类型信息链接到 WordNet
- 跨语言属性匹配：将多语言 infobox 属性映射到规范关系，通过 Wikidata 将等效实体合并到规范实体中。
Wikidata：
- 协作编辑的公共数据源
- 免费使用
BabelNet：
- 大规模的高覆盖的多语言语义网络
- Wikipedia + WordNet
- 通过机器翻译，拓展资源较少的语言知识
- knowledge encode （可用于含知识信息的基于图的词义消歧）

XLORE是第一个中英文知识均衡的大型跨语言知识库。

XLORE2 提高了 XLORE 的数据质量，同时根据 XLORE 中现有的知识推断缺失的事实。

3 方法

在这里插入图片描述

数据预处理：通过信息抽取，解析出百科数据中的实例、概念、属性、模板
跨语言知识图谱构建
- 整合中文维基百科、百度百科、互动百科 ---> 中文知识库（实体、概念、属性、infobox；包含融合和未融合的）
- 英文维基百科 ---> 英文知识库（实体、概念、属性、infobox）
- 中英文维基链接 --> 跨语言链接
- 跨语言知识链接、跨语言属性匹配、细粒度类型推断 ---> 跨语言知识图谱
数据质量改善：通过两种 跨语言知识验证 的方法提高数据质量
- 预测两个概念之间的 subClassOf 关系是否正确
- 预测实例和概念之间的 instanceOf 关系是否正确
- 通过 细粒度类型推断 推测未融合的实例类型
应用
- 构建了在线系统 XLORE2，
- 构建了以使用XLORE2作为主要数据源的双语实体链接应用程序 XLink

4 跨语言知识图谱构建

4.1 跨语言知识链接

背景：XLORE2 包含 470 万个英文实例和 1000 万个中文实例。目前这两种语言的实例之间只有 424,000 个跨语言链接。

任务：扩展知识链接的任务就是：发现不同语言中的等效实例，并构建起链接。

问题：特征可扩展性差（只能把特定的词汇或结构当作特征）和链接稀疏（现存的跨语言链接很少）

解决方案：使用基于异构网络表示学习（异构网络嵌入 HNE）的方法，在同一个低维向量空间中表示跨语言实例，从而比较跨语言实例的等效性

构建异构网络：在【同义词对应的实例】、【实例之间的链接网络】、【实例和单词之间的语义网络】、【现有的跨语言链接对】之间，构建 文本网络
网络表示学习：学习中英文实例编码
跨语言链接发现：使用逻辑回归发现中英文之间新的链接

4.2 跨语言属性匹配

背景：不同语言的infobox 可能存在不一致的问题，因此我们选择基于英文维基对其他语言的实例属性进行属性对齐。英文百科中存在超过10万个属性，但是只有不到5%（约5000）的属性存在跨语言（中/英）的映射。

问题：多义属性、同义属性、不同的单位制、时效性；单靠标签和值不足以进行跨语言属性匹配

解决方案：提出因子图模型，通过显式的链接属性来形式化关联。

左图表示不同语言的知识库的关系图，对角线分隔不同的语言，上层表示属性集、下层表示文章集，上下层之间的链接表示文章使用了属性，属性之间的链接（红色）表示现有的跨语言链接。

右图表示属性因子图，上层表示观测变量 $x_i$ , 下层表示隐藏变量 $y_i$ ， $x_i$ 表示不同属性的配对， $y_i$ 表示 $x_i$ 链接是否应存在（1或0）；f、g、h 表示三类将关系转换为可计算特征的特征函数。