基于知识图谱的问答系统(Knowledge-based Question Answering,KBQA),这个领域的论文大多是基于 Freebase 的。
Freebase 作为典型的知识图谱,其采用结构化的数据形式(Wikipedia并不是)。Freebase 的内容主要源于 Wikipedia、NNDB、MusicBrainz 以及社会用户的贡献。该项目由 MetaWeb 公司在2005年启动,Google于2010年收购了该公司,并将 Freebase 作为Google知识图谱的核心部分。2016年8月,Google停止了对 Freebase 的维护,并将其整体迁移合并到 WikiData 项目中[1]。目前我知道的有以下几种方法获取到 Freebase 数据。
- Freebase Data Dump:Freebase 官网提供 N-Triple RDF格式(.nt文件)的数据压缩包的下载,整个压缩包30G,解压后300G+。下载后,可以用压缩软件解压,也可以通过编程工具(比如Java的GzipInputStream)边读取边解压。[2][3] (我并没有尝试这个方法)
- FB2M和FB5M:FB2M和FB5M是 Freebase 的两个子集,其中 FB2M 含有2M实体和5k实体关系,FB5M含5M实体和7k实体关系。CSDN上有这个两个文件的下载链接,其中使用 FB5M 还需要下载一个 FB5M 中 entity linke 到 entity name 的映射文件来将语料集的 link 替换掉[4](参考文章[4]中作者也提供了3个文件的下载链接,但可能过期)。下载之后三个文件都是 txt 文件,需要转换为 RDF 格式,文章后面会介绍如何转换为 RDF 格式并配合 Virtuoso 使用,我暂时只处理了 FB2M 数据,所以只说明
|