| 知识抽取 
 从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱 1. 命名实体识别 检测: 北京是忙碌的城市。 [北京]: 实体分类:北京是忙碌的城市。 [北京]: 地名
 2.术语抽取:从语料中发现多个单词组成的相关术语。 3.关系抽取:王思聪是万达集团董事长王健林的独子。→?→??[王健林] <父子关系> [王思聪] 4.事件抽取:例如从一篇新闻报道中抽取出事件发生是触发词、时间、地点等信息 ? 5.共指消解:弄清楚在一句话中的代词的指代对象 ? 面向非结构化数据的知识抽取1.实体抽取实体抽取抽取文本中的原子信息元素,通常包含任命、组织/机构名、地理位置、时间/日期、字符值等标签,具体的标签定义可根据任务不同而调整。如: ?2.实体识别与链接实体识别即识别出句子或文本中的实体链接就是将该实体与知识库中的对应实体进行链接
 
 ?输入非结构化的文本数据,经过通用命名实体识别技术或词典匹配技术进行实体指称识别上一步识别出来的实体可能是实体的部分表示或另类表示,需要进行表层名字扩展、搜索引擎、构建查询实体引用表等技术来进行候选实体生成。上一步实体可能生成多个候选项,所以这一步进行候选实体消歧,方法有:基于图的方法、基于概率生成模型、基于主题模型和基于深度学习的方法。候选实体消歧后就可以与知识库中的实体进行链接。
 例子: ?3.关系抽取 
 ?:从文本中抽取出两个或多个实体之间的语义关系 分类: 基于模板的方法(触发词的Pattern, 依存句法分析的Pattern)基于监督学习的方法(机器学习方法)弱监督学习的方法(远程监督、Bootstrapping)?
 基于模板的方法 -?小规模数据集上容易实现且构建简单,缺点为难以维护、可移植性差、模板有可能需要专家构建。 基于监督学习的方法 -??在给定实体对的情况下,根据句子上下文对实体关系进行预测,执行流程为: 预先定义好关系的类别。人工标注一些数据。设计特征表示。选择一个分类方法。(SVM、NN、朴素贝叶斯)评估方法。
 其优点为准确率高,标注的数据越多越准确。缺点为标注数据的成本太高,不能扩展新的关系。 弱监督学习的方法 -?如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。 远程监督流程为:- 从知识库中抽取存在关系的实体对。
 - 从非结构化文本中抽取含有实体对的句子作为训练样例。
 4.事件抽取 
 ?从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等 事件抽取任务最基础的部分包括: 识别事件触发词及事件类型抽取事件元素同时判断其角色抽出描述事件的词组或句子
 此外,事件抽取任务还包括: 事件属性标注事件共指消解
 面向半结构化数据的知识抽取 
 半结构化数据是指类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据。 百科类知识抽取
 上图给出从百科里抽取知识的流程介绍。 Web网页数据抽取:包装器生成 
 包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。 使用它提取信息流程为: 
 包装器归纳通过包装器归纳这种基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据。其运行流程为:
 
 自动抽取网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的。自动抽取的流程如图所示:
 
 ? ?面向结构化数据的知识抽取 
 结构化数据就是指类似于关系库中表格那种形式的数据,他们往往各项之间存在明确的关系名称和对应关系。 ? 一种常用的W3C推荐的映射语言是R2RML(RDB2RDF)。一种映射结果如下图所示: 
 ?参考: 知识图谱入门 (三) 知识抽取_pelhans的博客-CSDN博客_知识抽取 |