动机:
- 数据到文本这个领域依然有很多挑战:首先,它们采用扁平的数据本体结构,例如数据记录的槽值对或者表格的扁平形式。这种扁平化的结构不足以在结构化数据的本体中编码丰富的语义关系,尤其是表,这些语义关系可以利用这些语义知识进一步改进表的表示。
- 其次,一些数据集只关注少量的领域或知识图,因此提供有限数量的谓词和数据本体。此外,由于任务的性质和自动生成过程的原因,其中一些算法在数据输入和句子之间只存在松散的对齐。
为了解决这些问题,我们提出了structured DAta-Record-to-Text(DART),目标是覆盖维基百科中的多样的表格,比特定域的数据集要丰富。我们还引入了新的表上的树本体注释,它将平面表模式转换为树结构的语义框架。 树本体反映了表模式中的核心和辅助关系,并且自然地跨许多领域出现。因此,DART为从各种数据源(包括WikiSQL和WikiTableQuestions)提取的树状结构语义框架提供高质量的句子注释。我们评估了DART上的几种最先进的数据到文本模型,发现尽管这些模型在特定领域上表现很好,但却由于DART的领域丰富的语义结构而表现不好。
贡献:
- 我们为结构化数据到文本的生成提出了一个很大且开放域的数据集,并把他们转换成树结构,这种层级的输入是我们和其他语料的区别。
- 我们对几个最先进的数据到文本模型进行了基准测试,以表明DART引入了新的泛化挑战。
- 我们证明,使用DART进行数据增强可以提高WebNLG 2017数据集上现有模型的性能。考虑到DART的开放领域特性,我们希望该结果能够推广到其他数据到文本的数据集。
数据采集:
?DART由三个不同的来源构成:(1)从两个表语义解析和问答数据集WikiSQL和WikiTableQuestions对Wikipedia表进行人工注释,(2)将WikiSQL中的问题自动转换为声明性句子,以及(3)合并现有数据集,包括WebNLG 2017和E2E。在从各种数据源收集htriple集、句子对之后,我们手动规范化了谓词,并显示DART涵盖了广泛的主题。
树本体与表的句子标注
人类注释程序概述。顶部面板:我们从内部注释器收集列之间的父子关系(黄色是父,绿色是子)。然后,我们收集以橙色突出显示的细胞的表面实现。中间面板:我们使用提供的父子关系在列上构建本体树,然后选择高亮显示单元对应的节点。我们通过收集所有指向高亮显示单元的最低共同祖先的节点来收集一个连接的子树。底部面板:我们从子树中提取一组三元组,如图所示。此三元组与提供的实现配对,以形成DART实例。
?在第一阶段,熟练的内部注释员指定每个列标题的父级,为每个表构建树结构的本体。在第二个阶段,内部和外部注释器都会对一行中高亮显示的单元格进行句子描述,这些单元格会基于本体自动显示。
|