学习内容
小象学院 b站 第二章
第二部 典型知识库项目简介
CYC(读音: 赛克)
Wordnet
-
WordNet是最著名的词典(lexical)知识库,主要用于词义消歧,1985年提出的。 -
WordNet主要定义了名词、动词、形容词和副词之间的语义关系。 例如名词之间的上下位关系(如: 猫科动物是猫的上位词),动词之间的蕴涵关系(如:打鼾蕴含着睡眠)等 -
WordNet已经包含超过了15万个词和20万个语义关系。
ConceptNet
- ConceptNet主要依靠互联网众包、专家创建和游戏三种方法来构建。新版本导入了大量开放的结构化数据,如DBPedia、WordNetdeng
- ConceptNet知识库以三元组形式的关系型知识构成。ConceptNet5版本已经包含有2800万关系描述。与Cyc相比,ConceptNet采用了非形式化、更加接近自然语言的描述,而不是像Cyc那样采用形式化的谓词逻辑
- 与链接数据和谷歌知识图谱相比,ConceptNet比较侧重于词与词之间的关系。从这个角度看,ConceptNet更加接近于WordNet,但是又比WordNet包含的关系多。此外,ConceptNet完全免费开放,并支持多种语言。
Freebase
三元组:我们理解为主谓宾
Wikidata
DBPedia
- DBPedia是早期的语义网项目。DBPedia意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集。DBPedia采用了一个较为严格的本体,包含人、地点、音乐、电影、组织机构、物种、疾病等类定义
- 此外,DBPedia还与Freebase、OpenCYC、Bio2RDF等多个数据集建立了数据链接。 DBPedia采用RDF语义数据模型,总共包含30亿RDF三元组。
三元组:我们理解为主谓宾
YAGO
链接 我们还添加了各种时间关系,比如奥巴马是多少年任期的; 鹿晗和关晓彤是多少年在一起的。
BabelNet
- BabelNet是类似于WordNet的多语言词典知识库。BabelNet的目标是解决WordNet在非英语语种中数据缺乏的问题。BabelNet采用的方法是将WordNet词典与Wikipedia百科集成
- 首先建立WordNet中的词与Wikipedia的页面标题的映射,然后利用Wikipedia中的多语言链接,再辅以机器翻译技术,来给WordNet增加多种语言的词汇
- BabelNet3.7包含了271中语言,1400万同义词组,36,4万词语关系和3.8亿从Wikipedia中抽取的链接关系,总计超过19亿RDF三元组。继承了上面两个数据库的优点,构建了目前最大规模的多语言词典知识库。
我们可以利用同义词来重构搜索条件
NELL
这里是自动在web上抽取三元组知识;但是需要知识抽取(bootstrap)来进行引导。
Concept Graph
- Concept Graph是以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,Concept Graph以概念定义和概念之间的IsA关系为主
- 给定一个概念如“Microsoft”,Concept Graph返回一组与“微软”有ISA关系概念组,如“Company”,“Software Company”,这被称为概念化“Conceptualization”
- Concept Graph可以用于短文本理解和语义消歧。 如“工程师在吃苹果”,苹果指的是苹果还是苹果公司。
OpenKG:中文知识图谱资源库
Zhishi.me
英文很多,中文很少。 包括百度百科 实体抽取,关系抽取 --》 知识抽取 我们获取知识后再进行整合,进行互补。
cnSchema:开放的中文知识图谱Schema
可以自行访问
|