知识图谱系列论文
知识图谱领域相关论文,包括但不限于其发展历史、知识表示学习、知识获取、知识应用、未来研究方向等。(更新中)
摘要
人类知识提供了对世界的理解。表示实体之间结构关系的知识图谱已成为面向认知系统和人类智能流行的研究方向。在本综述中,对知识图谱进行了全面综述,包含以下方面研究主题:1)知识图谱表示学习,2)知识获取和补全,3)时序知识图谱,4)知识应用,并总结了近期的突破和有前景的研究方向。本文提出了关于这些主题的全视图分类和新分类方法。知识图谱嵌入从表示空间,打分函数,编码模型和辅助信息四个方面进行组织。对于知识获取,尤其是知识图谱补全,回顾了嵌入方法,路径推断和逻辑规则推理。也进一步探索了几个新兴主题,包括元关系学习,常识推理和时序知识图谱。同时,为促进对知识图谱研究,提供了精选的有关不同任务的数据集和开源库。最后,对几个有前景的研究方向做了一个全面展望。
关键字:知识图谱、表示学习、知识图谱补全、关系提取、推理、深度学习
以下是本篇文章正文内容,水平有限,翻译不准确望请指出。
一、INTRODUCTION
人类知识是人工智能的研究方向之一。受人类解决问题的启发,知识表示和推理,是表示智能系统获得解决复杂任务的能力。近年来,知识图谱作为结构化人类知识的一种形式,引起了学术界和工业界的极大关注。知识图谱是事实的结构化表示,由实体、关系和语义描述组成。实体可以是真实世界的对象和抽象概念,关系代表实体之间的联系,实体的语义及其关系包含具有明确含义的类型和属性。
当考虑一个图结构时,知识图谱可以被看做一个图;当它涉及形式语义时,它可以作为解释和推理事实的知识库。知识库和知识图的例子如下图1。知识可以在资源描述框架(Resource Description Framework,RDF)下,以(head, relation , tail)或者(subject,predicate,object)这样三元组的形式来描述。如:(Albert Einstein,Winner Of,Nobel Prize)。当然,它也可以作为一个有向图,结点作为实体,边作为关系。(本文中交替使用知识库和知识图谱) 基于知识图谱研究的最新进展集中在知识表示学习(KRL)和知识图谱嵌入(KGE),其中KGE是将实体和关系映射到低维向量,同时捕获它们的语义。具体的知识获取任务包括知识图谱补全(KGC)、元组分类、实体识别以及关系抽取。Knowledge-aware model(知识感知模型)受益于异构信息的集成、用于知识表示的丰富本体和语义以及多语言知识。因此,现实世界的应用,如推荐系统和问答系统,才有很好的常识理解和推理能力。一些真实世界的产品,例如微软的Satori和谷歌的Knowledge Graph,已经显示出提供更高效服务的强大能力。 该论文对当前知识图谱文献进行了全面探索,主要贡献总结如下:
-
全面review: 对知识图谱的起源和知识图谱相关学习的现代技术全面回顾。介绍并比较了知识图谱表示学习和推理的主要体系结构。此外,还提供了不同领域中许多应用的完整概述。 -
全视图分类和新分类方法:知识图谱研究的全视图分类,以及更细粒度的新分类方法被提出。具体而言,在高层从四个方面回顾了知识图谱的研究:知识表示学习(KRL),知识获取,时序知识图谱,知识应用。 对于KRL,进一步提出将细粒度分类从四个方面考虑,包括表示空间、评分函数、编码模型和辅助信息。对于知识获取,在基于嵌入排名、关系路径推理、逻辑规则推理和元关系学习下,回顾了知识图谱补全(KGC);实体获取任务分为实体识别、实体分类、实体消歧和实体对齐;并根据神经网络范式讨论了关系抽取。 -
广泛包含新进展:广泛覆盖新兴主题,包括基于Transformer的知识编码、基于图神经网络(GNN)的知识传播、基于强化学习的路径推理和元关系学习。 -
对未来方向总结展望:该论文提供了每个类别的总结,并强调了有前景的未来研究方向。
二、OVERVIEW
1.知识库简史
知识表示在逻辑和人工智能领域经历了长期的发展历史。图形知识表示的思想最早可以追溯到1956年Richens提出的语义网概念,而符号逻辑知识可以追溯到1959年的一般问题求解器。MYCIN是最著名的基于规则的医学诊断专家系统之一,其约有大约600条规则的知识库。后来,人类知识表示社区看到了基于框架的语言、基于规则以及混合表示的发展。在这一时期结束时,Cyc项目开始,旨在汇集人类知识。资源描述框架(RDF)和Web本体语言(OWL)被提出,成为语义网的重要标准。然后许多开放知识库或本体被发布,如有:WordNet、DBpedia、YAGO、Freebase等。1998年,Stokman and Vries提出图结构知识的现代概念。然而,自2012年由谷歌搜索引擎发布(提出了称之为Knowledge Vault的知识混沌框架构建大规模知识图谱),知识图谱的概念获得了极大的普及。知识库的简要历史图如Fig.10。许多通用知识图谱数据库和特定领域知识库已经发布,以促进研究。
2.Definitions and Notations(定义和概念)
Paulheim定义了知识图谱的四个标准。Ehrlinger分析了已有的定义,提出了Definition 1 ,它强调知识图谱的推理引擎。Wang et al.等人提出了多关系的定义,即Definition 2 :
Definition 1: A knowledge graph acquires and integrates information into an ontology and applies a reasoner to derive new knowledge.(知识图谱获取信息并将信息集成到本体中,并应用推理机来获取新知识。) Definition 2: A knowledge graph is a multi-relational graph composed of entities and relations which are regarded as nodes and different types of edges, respectively. (知识图谱是由节点和关系(可视为结点和不同类型的边)组成的多关系图。)
具体概念及说明如Table 1.
3. 知识图谱研究分类
本文提供了关于知识图研究的全面文献综述,即KRL、知识获取和广泛的下游知识应用,其中集成了许多最新的高级深度学习技术。研究的总体分类如Fig2.所示。
3.1 知识表示学习
知识表示学习是知识图谱的一个关键研究问题,为许多知识获取任务和下游应用奠定基础。我们将KRL分为表示空间、打分函数、编码模型和辅助信息四方面,为开发一个KRL模型提供了一个清晰的工作流。 具体成分包括如下:
- 表示关系和实体的表示空间
- 用于测量事实三元组可信度的评分函数
- 表示和学习关系交互的编码模型
- 纳入嵌入方法的辅助信息
表示学习包括point-wise空间、流形空间、复向量空间、高斯分布和离散空间。打分函数一般分为基于距离的评分函数和基于相似性匹配的评分函数。目前的研究主要集中在编码模型,包括线性/非线性模型,因式分解和神经网络。辅助信息一般为文本、视觉、类型信息。
3.2 知识获取
知识获取任务可以分为三种,KGC、关系抽取、实体识别。KGC即扩大已有的知识图谱,另外两个是从文本中发现新的知识。KGC非为如下几类:embedding-based排名、关系路径推理,基于规则的推理,元关系学习。实体发现包括实体识别、实体消歧、实体类型和实体对齐。关系抽取模型利用注意力机制,图神经网络、对抗训练、强化学习、深度残差学习、转移学习。
3.3 时序知识图谱
时态知识图谱包含用于表示学习的时态信息。 本文分为四个研究领域,包括时序嵌入、实体动态、时序关系依赖和时序逻辑推理。
3.4 知识应用
知识感知应用程序包括自然语言理解(NLU)、问答系统、推荐系统和其他现实世界的任务(添加知识提高表示学习的能力)。
4.相关研究
以前关于知识图谱的研究论文主要是关注统计关系学习,知识图谱细化,中文知识图谱构建、知识推理 、KGE 或 KRL 。Lin et al.等人 以线性方式呈现 KRL,专注于定量分析。 Wang et al.等人 根据评分函数对 KRL 进行分类,并特别关注 KRL 中使用的信息类型。 它仅从评分指标的角度提供了当前研究的一般视图。而在本文综述更深入地研究了 KRL 的流程,并从四个方面提供了全面视图,包括表示空间、得分函数、编码模型和辅助信息。此外,本文提供了对知识获取和知识应用的全面回顾,并讨论了多个新兴主题,例如基于知识图谱的推理和few-shot学习(少样本学习)。
三、KNOWLEDGE REPRESENTATION LEARNING(知识表示学习)
四、KNOWLEDGE ACQUISITION(知识获取)
五、TEMPORAL KNOWLEDGE GRAPH(时序知识图谱)
六、KNOWLEDGE-AWARE APPLICATIONS(知识图谱应用)
七、FUTURE DIRECTIONS(未来方向)
八、CONCLUSION(总结)
|