Cross-Lingual Machine Reading Comprehension

论文：https://arxiv.org/abs/1909.00361

代码：https://github.com/ymcui/Cross-Lingual-MRC

任务

虽然机器阅读理解研究得到了飞速发展，多数工作面向的是英文数据，而忽略了机器阅读理解在其他语言上的表现，其根本原因在于大规模训练数据的缺失。本文提出跨语言机器阅读理解（Cross-Lingual MachineReading Comprehension，CLMRC）任务来解决非英文下的机器阅读理解。
本文所提出的方法具有良好的通用性，可适配多种机器阅读理解任务。在本文中将着重解决基于篇章片段抽取的机器阅读理解（Span-Extraction MRC），这也是目前在该领域中研究最为广泛的任务之一。该任务需要对<篇章，问题>进行建模，并从篇章中抽取出一个连续的片段作为答案。最广为熟知的是由斯坦福大学提出的SQuAD（Stanford Question Answering Dataset）数据集。
利用英文（源语言）数据来提升中文（目标语言）机器阅读理解系统效果。

方法（模型）

首先给出了基于回译（Back-Translation）的跨语言阅读理解方法来解决目标语言没有训练数据的情况。
对于目标语言存在一定的训练数据时，创新地提出了Dual BERT模型来进一步借用富资源语言（例如：英文）的训练数据来帮助低资源语言下的机器阅读理解效果。该模型能够对<篇章，问题>在双语环境中建模，并且最终融合成一种统一的语义表示，进而得到更加精准的答案预测。

主要贡献：

提出了跨语言机器阅读理解任务来进一步提升低资源语言下的机器阅读理解系统效果
提出了Dual BERT模型，对输入文本和问题在双语环境中建模，进一步丰富了语义表示
所提出的Dual BERT模型在两个中文机器阅读理解数据集上获得state-of-the-art效果

Back-Translation Approaches

源语言：具有大规模的语料资源的语种。我们需要从该语种的资源中抽取出丰富的知识。下文中使用下标S来代表源语言变量。
目标语言：希望优化系统性能的语种，即目标系统的语种。该语种没有可用或仅有少量的语料资源。下文中使用下标T来代表目标语言变量。

本文利用英文（源语言）数据来提升中文（目标语言）机器阅读理解系统效果。

several back-translation approaches

GNMT

(Google Neural MachineTranslation,GNMT)

使用翻译系统来实现跨语言机器阅读理解是很直接的方法，主要流程（Figure1 left）：

将目标语言输入<篇章，问题>翻译成源语言
通过源语言的阅读理解系统得到一个源语言的答案
将源语言答案回译为目标语言

**存在问题：**经过回译的答案不一定是原文中的某个精准片段。

解决方法：

Simple Match

利用滑动窗口在目标语言篇章中进行滑动，假设翻译出的答案与真实答案长度基本相似，由此计算出候选span和翻译答案的F1-score，从这些窗口中选取一个字级别F1-score最高的窗口作为最终的预测答案C。使用所提出的SimpleMatch可以确保预测的答案是目标段落中的精确跨度。

Answer Aligner

Figure 1 middle

如果目标语言有一定量的训练数据，那么可以进一步提升答案对齐的效果。将对齐后的答案C与目标语言篇章P输入到BERT中，并以目标语言真实答案作为目标进行训练，就可以得到答案对齐器（Answer Aligner）。

Answer Verifier

Figure 1 right

在答案对齐器的基础上进一步加入目标语言问题Q，即可成为答案验证器（Answer Verifier），使用翻译答案验证正确性。

Dual BERT

适用于目标语言存在一定的训练数据的情况。

模型结构：

Dual Encoder

本文使用BERT作为文本表示模型,对于给定的目标语言篇章 $P_T$ 和问题 $Q_T$ ，BERT的输入 $X_T$ 可以表示为:
$CLS] \ Q_T \ [SEP]\ P_T\ [SEP]$
利用GNMT系统，可以将目标语言数据翻译成源语言，从而获得源语言输入 $X_S$ 。经过BERT编码后，分别获得目标语言表示 $B_T$ 和源语言表示 $B_S$ 。