开放信息抽取(OIE)系统(七)-- 开放信息抽取系统资源、应用与中文实战
目录
一.开放信息抽取系统应用
开放信息抽取系统的目的是进行三元组的抽取,三元组自然有很多应用,以下描述的是一些经典应用场景:
- 构建知识图谱、知识库等(Knowledge Graph),如Magi图搜索引擎、思知机器人构建的知识图谱;
- 知识图谱问答(KBQA, Question Answer),抽取的三元组最为答案的约束, 例如loss中增大三元组的权重;
- 文本蕴含(Textual Entailment), 舆情监督中, 实体间的包含关系,如飞机与直升飞机;
- 语义角色标记(Semantic Role Labeling)、共指消解(Resolving Coreference)或本体扩展等.
- 图嵌入(Graph Embedding)、图推理(Graph Reasoning);
二.中文开放信息抽取系统资源
- 经典资源与应用(现共176数据集)
- 经典工具(现共59工具)
三.中文开放信息抽取系统实践
- 主要思想: 依存句法分析(DP) + 规则(rule-based)
- 详情:
- a. 调用LTP依存句法解析, 得到依存关系
- b. 编写规则抽取三元组
- 三元组
- 主谓关系 SBV subject-verb, 我送她一束花 (我 <– 送)
- 动宾关系 VOB 直接宾语,verb-object 我送她一束花 (送 –> 花)
- 间宾关系 IOB 间接宾语,indirect-object 我送她一束花 (送 –> 她)
- 前置宾语 FOB 前置宾语,fronting-object 他什么书都读 (书 <– 读)
- 定中关系 ATT attribute, 红苹果 (红 <– 苹果)
- 内容补充
- 并列关系 COO coordinate 大山和大海 (大山 –> 大海)
- 左附加关系 LAD left adjunct 大山和大海 (和 <– 大海)
- 右附加关系 RAD right adjunct 孩子们 (孩子 –> 们)
- 动补结构 CMP complement 做完了作业 (做 –> 完)
- 介宾关系 POB preposition-object 在贸易区内 (在 –> 内)
- 备注
- 增加并列关系、左附加关系、右附加关系等(递归实现);
- 这里的依存句法分析只适合简单短句,过长句子、口语化句子dp效果不好会很影响下游抽取。
四、代码与资源
希望对你有所帮助!
|