[人工智能] Text-to-Table: A New Way of Information Extraction

本文与之前的IE研究方法不太一样，有两点可以证明。一是可以实现长文本到复杂结构的大型表的提取；二是提取完全是由数据驱动的，这意味着不用定义schema(模式)。本文首先把文本-表格的过程转换为seq2seq的生成问题，这里使用的是一个已经预训练的模型经过微调得来的。此外，我们还在seq2seq的过程中利用了表约束和表关系嵌入。表约束控制表中行的创建，而表关系嵌入影响单元格及其行标题和列标题之间的对齐。主要思想是将表到文本的问题转化成文本到表的逆问题。并利用四个表到文本的数据集进行文本到表的实验。

Introduction

在本工作中，我们首先把接收包含文本、表的训练数据集。每个文本到表的数据集包含一个文本和一个或多个表，它们表示从文本中提取的目标应用程序所需的信息。接着我们利用数据集训练一个模型，并将系统应用到一个新的文本上去生成一个新的表。例如下图，上面的文本是篮球比赛的报道，下面生成的两张表分别时Team表和Player表信息。

?文本到表格相比传统的信息抽取方法是独特的。我们的方法有以下两个优点，一是文本到数据可以在句子级和文档级执行。虽然句子和文档级之间的区别是模糊的，但文档级别的提取可以产生更加复杂的输出。二是用于提取的模式隐式的包含在训练集中，比如header name(标题名称，透明称？)，不需要显式的定义模式着大大减少了模式设计和手工标注。

我们的工作灵感来自于对表到文本(或数据到文本)问题的研究，这是为给定表生成描述的任务。表到文本在需要用自然语言描述表内容的应用程序中很有用。因此，文本到表可以看作是表到文本的反问题。然而，也有不同之处。最值得注意的是，它们的应用程序是不同的。文本到表系统可以自动生成用于文本摘要和文本挖掘的表。例如，体育比赛的得分表和维基百科文章的信息框可以作为原始文档的摘要。得分表可以用来评价运动员的成绩，信息框可以用来构建知识图谱（further application）。

Contributions

我们在四个数据集上的实验结构表明从BART微调的Seq2Seq模型可以超过从BERT预训练的微调模型。

1. 提出了面向IE的文本到表格的新任务，我们从现有的数据集中为该任务派生出了四个新的数据集。

2. 我们将任务形式化为一个seq2seq问题，并在seq2seq方法中使用表约束和表关系嵌入技术提出了一个新的方法。

3.我们进行了广泛的实验，验证了所提出的方法的有效性。

Task Definition

Information Extraction (IE) is the task of extracting information (structured data) from a text (unstructured data). For example, named entity recognition (NER) recognizes entities appearing in a text. Relation extraction (RE) identifies the relationships between entities. Event extraction (EE) discovers events occurring in a text. Role-filler entity extraction (REE) fills entities into event templates and is similar to EE.

Real Related Work（Methods）

NER、RE、EE这三种问题的方法都是用来预定义的模板(NER使用实体类型，RE使用实体和关系类型，EE使用事件模板)。其中，大多数的提取方法都是针对较短的文本进行的，现有的方法不能适用于文本到表。

另一系列的工作是开放信息抽取(OpenIE),其目的是从文本中提取信息，而不依赖于显式定义的模式。但是，OpenIE的目的是从简短的文本中提取结构简单的信息(例如关系元组)，OpenIE中的方法不能直接应用于文本到表。

文档级信息抽取，一些NER方法直接在长文档上执行NER，并且对文档中的每个句子进行编码，利用注意力融合文档级信息，并对每个句子执行NER。也有RE方法可以预测文档中实体之间的关系。然而，现有的文档级IE方法没有考虑到多items(条目，实体)之间的复杂关系的抽取。

Real Related Work（Models）

Seq2Seq是将一段文本转换为另一段文本的问题，包括机器翻译、文本摘要等。使用BART的预训练语言模型可以有效地加速Seq2Seq任务的性能。最近一些研究者也将IE问题形式化为seq2seq问题，即将输入转为内部表示(个人觉得是RE的实体和关系类型或者是NER的实体类型)。这种方法的一个优点是可以用一个模型来提取多种类型的问题。结果表明，这种方法优于或与RE、NER、EE、REE中的传统方法性能相差不大。?(Paolini et al.,2021)Structured Prediction as Translation between Augmented Natural Languages | OpenReview还设计了NER、RE、EE的联合学习模型。

Real Related Work（Data-to-Text）

Data-to-text旨在从输入的结构化文本中生成自然语言描述。结构化数据通常以表、表单元、语义表征、关系三元组集合来表示。该任务要求模型从数据中选择重要信息，以逻辑顺序组织它，并生成准确、流畅的自然语言描述。数据到文本模型通常采用编码器-解码器架构。编码器是专门为输入数据建模而设计的，如多层感知器、循环神经、图神经网络、Transformer。

Problem Formulation

输入文本表示为 $x=x_{1},\dots,x_{|x|}$ ，输出为一个表或多个表。为了简化就用一个表 $T$ ，假设 $T$ 有 $n_{t}$ 行和 $n_{c}$ 列。因此表一共有 $n_{t}*n_{c}$ 个单元格，其中第i行第j列是第一个单词序列 $t_{i,j}=t_{i,j,i},\dots,t_{i,j,|i,j|}$ 。表中有三种元素类型，分别是行标题、列标题、和非标题单元格。例如上表中 $t_{1,2}=Assists,t_{2,1}=AI Horford,t_{2,2}=5$ 。通过文本到表提取的信息可以用于不同的应用，例如文档摘要和文本挖掘。

文本到表格和传统IE设置之间存在差异。从图1的示例中可以看出，信息的提取是从整个文档中执行的。提取的信息(结构化数据)是一种复杂的形式，特别是篮球比赛中球队和球员的多种类型的分数。此外，采用数据驱动的方法，不需要显式地定义表的模式。文本到表的任务也有挑战。首先，包含文本和表的并行数据很难获得。手工构造此类数据通常代价高昂。其次，结构化信息可能不容易表示为表。例如，知识图可能不容易转换为表。第三，对提取的表进行评估可能不容易，这包括header、内容和结构等多个因素。

Our Method

我们开发了一种文本到表的方法，使用seq2seq方法和表约束嵌入和表关系嵌入两种技术。

Vanilla Seq2Seq

我们将文本到表形式化为序列到序列(seq2seq)问题(Sutskever等人，2014;Bahdanau等人，2015)。具体来说，给定一个输入文本，我们生成一个序列表示输出表(或多个表)。我们引入了两个特殊的标记，一个称为"<s>"的分离标记和一个称为"<n>"的新行标记。对于表t，我们通过标识符"<s>"组成的序列来表示第i行的单元格。我们用由换行标记分隔的行序列表示整个表。

?上图表示了运动员表，如果有多个表的时候，我们创建了一个表序列使用表的标题作为分隔符。使用 $x=x_{1},x_{2},\dots,x_{|x|}$ 和 $y=y_{1},\dots,y_{|y|}$ ?分别表示输入和输出。在推理过程中，模型基于输入产生输出。该模型以一种自动回归的方式进行生成，它基于到目前为止生成的令牌在每一步生成一个令牌。在训练中，我们基于文本表对 $\{(x_{1},y_{1}),(x_{2},y_{2}),\dots,(x_{n},y_{n})\}$ 学习模型。学习的目标是使交叉熵损失最小化。

我们将上面描述的方法称为“vanilla seq2seq”。但是，不能保证普通的seq2seq的输出序列表示一个精心设计的表。我们添加了一个后处理步骤，以确保输出序列是一个表。后处理方法获取定义良好的第一行，在其他行的末尾删除额外的单元格，并在其他行的末尾插入空单元格。

?Techniques

我们开发了两种技术提升表的泛化性，即表限制和表关系嵌入。我们的方法实际就是有这两种方的Seq2Seq。

Table Constraint

我们的方法利用解码过程中的一个约束，以确保输出序列表示一个良好的格式表。具体来说，我们的方法计算它生成的第一行中的单元格数量，然后强制接下来的行包含相同数量的单元格。也就是保持每一行的单元格数量相等。

Table Relation Embeddings

我们的方法将表关系嵌入(行关系嵌入和列关系嵌入)注入到Transformer解码器的自注意力层。给定一个非标题单元格，行关系嵌入 $\tau _{r}^{K}$ 和 $\tau_{r}^{V}$ 表示应该对齐哪一个行标题token，同理 $\tau_{c}^{K}$ 和 $\tau_{c}^{K}$ 也是这样。

Transformer解码器块中的在每个位置，自注意力只考虑前面的位置，为了简单期间，我们只考虑一头注意力。在第t个位置，自注意力的输入是表征序列 $z=({z_{1},\dots,z_{t}})$ ，输出是表征序列 $h=(h_{1},\dots,h_{t})$ 。

?上图左边是传统的Transformer解码器中的自注意力机制，右边是我们的方法，其中 $r_{ij}^{K}$ 和 $r_{ij}^{V}$ 分别表示第i个位置和第j个位置的关系。 $r_{ij}^{K}$ 和 $r_{ij}^{V}$ 的定义如下，对于第i个位置的token，如果第j个位置的token是行标题的一部分，然后? $r_{ij}^{K}$ 和 $r_{ij}^{V}$ ?就被设置为行关系嵌入 $\tau _{r}^{K}$ 和 $\tau_{r}^{V}$ ，?如果第j个位置的token是列标题的一部分，然后? $r_{ij}^{K}$ 和 $r_{ij}^{V}$ ?就被设置为行关系嵌入 $\tau_{c}^{K}$ 和 $\tau_{c}^{K}$ 。其他情况则被设置为0。在推断中，为了识别标记的行头或列头，我们解析到目前为止生成的序列，使用序列中的新行标记和分隔标记创建一个部分(偏置)表。下图说明了关系向量是如何构造的，其中红色线表示列标题表示，黄色线代表行标题表示。

Experime

Datasets

我们用来四个现存的利用数据到文本的四个数据集：Rotowire (Wiseman et al., 2017), E2E (Novikova et al., 2017),WikiTableText (Bao et al., 2018), and WikiBio (Lebret et al., 2016).在每个数据集中，我们过滤掉表中没有出现在文本中的内容。

Procedure?

Methods：我们使用自己的模型和seq2seq模型以及baselines做对比。对于每个数据集，我们首先基于训练数据定义模式，然后使用现有的关系提取(RE)或命名实体提取(NER)方法来提取信息，最后基于模式和提取的信息创建表。并将其作为该数据集的baseline。由于没有一个统一的方法同时处理四个数据集，所以我们使用PURE来处理关系抽取，BERT来处理NER。

Training：我们使用Transformer架构的BART-base模型来微调我们的模型。同样，也使用了BART-Large。对于RE和NER我们也在BERT-base-uncased上微调了我们的模型。所有模型都使用Adam优化器去进行训练。

Evaluation：我们基于(1)正确标题的数量和(2)正确的非标题单元格的数量来评估方法的性能。我们采用F1评分作为评价指标。对于每个表，我们将预测结果集y与真值集y*进行比较。精确率定义为预测正确的结果所占的百分比。召回率被定义为正确的结果占真实的百分比。我们使用了三种方式去衡量，分别是精确匹配(要求两个文本精确匹配)、chrf(计算两个文本之间的字符级别的n元相似性)、BERT-Score(计算两个文本BERT嵌入之间的相似性)。

Result：我们得出了结论如下结论：1.没有约束性嵌入的模型和普通的seq2seq模型性能没有什么区别；2.有约束性嵌入的模型相比普通的seq2seq模型可以更加有效的提高结构的正确性；3.更大的预训练模型(BART-large)可以有效地提高模型的性能。