NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
摘要
神经系统的机器翻译是一个最近被提出到机器翻译的方法。不像传统的统计机器翻译模型,神经系统翻译目的在于创建一个单神经网络,这个网络能被共同调整最大化机器翻译性能。 最近提出用于神经机器翻译的模型通常属于编码器-解码器家族,并将源句子编码到一个固定长度的向量,这个向量是通过解码器生成翻译。在这篇论文中,我们猜想使用一个固定长度向量是一个瓶颈,在提高以编码器-解码器为基础的性能,建议通过允许一个模型自动化地(软性的)搜索源句子的与预测一个目标词相关的部分来扩展这一点,而不必将这部分明确地形成为硬段。由于这个新方法,我们在英法翻译任务上与现有最先进的基于短语的系统相媲美的翻译性能。定性分析揭示通过模型发现的(软)对齐跟我们的直觉非常的吻合。
1 引言
神经机器翻译是一个对机器翻译来说新浮现的方法,最近被Kalchbrenner和Blunsom(2013)、Sutskever等(2014)、Cho等(2014b)提出。不像传统的以短语为基础的翻译系统(看Koehn2003),这个系统由很多小的分别被微调的子组件构成,神经机器翻译试图建立和训练一个单独的、大的神经网络,读一个句子并且输出一个正确的翻译。
大多数被提出的神经机器翻译模型属于编码-解码家族(Sutskever等2014)。对于每一种语言使用一个编码器和解码器,或者设计一个特定语言的编码器应用于每一个句子,然后比较其输出(Hermann 和 Blunsom 2014)。一个编码神经网络读和编码一个源句子输出到一个固定长度的变量。一个编码器输出一个翻译从编码的向量中。所有的编码器-解码器系统,对于一个语言对由一个编码器和一个解码器组成,联合训练以最大化给定源句子正确翻译的概率。
这个编码器-解码器方法的潜在问题是神经网络需要能够压缩源句子所有必要的信息到一个固定长度的向量中。这可能对于神经网络对付长句子的时候是困难的,尤其是那些比训练语料库中的句子还长的。Cho等(2014b)展示一个基本的编码器-解码器的性能的确快速恶化随着输入句子长度的增加。
为了设法解决这个问题,我们引进了编码器-解码器模型的扩展,该模型学习联合对齐和翻译。每次被提出的模型在一个翻译中生成一个词时,它(软)搜索在一个源句子中最相关的集中信息的一组位置。这个模型然后预测一个目标词以内容向量为基础跟源位置和所有以前生成目标单词的关联。
这个方法跟基本的解码器-编码器最大不同的特征是它不需要试图编码一整个输入句子到单个固定长度的向量。相反,它编码输入句子到一个时序的向量并且当解码译文的时候适应性的选择向量的子集。这个解放了神经翻译模型从必须把所有源句子的信息压扁,不管源句子的长度,到一个固定长度的向量。我们表露这个允许模型更好的处理长句。
在这个论文,我们展示了这个被提出的方法联合学习对齐和翻译的方法比基本的编码器-解码器方法显著的提高了翻译性能。这种提高更多出现长句子中,但可以用任意长度的句子进行观察。在英译法的翻译任务中,所提出方法实现,使用一个单模型,翻译的性能相当或接近传统的以短语为基础的系统。此外,定性的分析揭示提出的模型发现了一个语言方面似乎可信的(软)对齐在源句子和相对应的目标句子。
2 背景:神经机器翻译
从一个概率的观点,翻译等价于给一个源句子x,最大化条件概率y,发现目标句子y。例如
a
r
g
?
m
a
x
y
p
(
y
∣
x
)
arg\ max_yp(y|x)
arg?maxy?p(y∣x) .在神经机器翻译中,我们拟合参数化模型使用并行训练语料库来最大化成对句子的条件概率。一旦通过翻译模型学习到条件分布,给与一个源句子相应的翻译能被生成,通过搜索最大化条件概率的句子。
最近,许多论文已经提出使用神经网络直接学习这个条件分布(看例如,Kalchbrenner和Blunsom 2013、Cho 2014、Sutskever 2014、Cho 2014b、Forcada和Neco1997等)。这个神经机器翻译方法由两个组件代表性地组成,第一部分编码源句子x和第二部分编码目标句子y。例如,(Cho et al. 2014a)和(Sutskever et ak. 2014)使用两个循环神经网络(RNN)去编码可变长度的句子到一个固定长度的向量然后去解码这个向量到一个可变长度的目标句子。
尽管是一个完全新的方法,神经机器翻译已经展示前途无量的结果。Sutskever et al. (2014)报道以RNN长短时记忆(LSTM)为单元的神经机器翻译实现了接近传统的以短语为基础的机器翻译系统在英译法的翻译任务中最先进的性能
1
^1
1。增加神经系统的组件到存在的翻译系统,例如,在短语表中评分短语对(Cho et al. 2014a)和(Sutskever et at. 2014)或重新评分候补翻译(Sutskever et al. 2014),已经使之超过了之前最先进的性能水平。
2.1 RNN 编码器-解码器
在这里,我们简要描述下底层框架,叫做RNN编码器-解码器,Cho et at(2014a)和Sutskever et al.(2014)提出之上我们创建一个新奇的架构,同时学习对齐和翻译。
在编码器-解码器框架,一个解码器读取出入的句子,一个时序向量
x
=
(
x
a
,
.
.
.
,
x
T
x
)
x=(x_a,...,x_{T_x})
x=(xa?,...,xTx??),转变成一个
2
^2
2向量c,最常用的方法是使用一个RNN使得
h
t
=
f
(
x
t
,
h
t
?
1
)
a
n
d
c
=
q
(
{
h
1
,
.
.
.
,
h
T
x
}
)
(1)
h_t=f(x_t,h_{t-1})\tag{1}\\ and\\ c=q(\{h_1,...,h_{T_x}\})
ht?=f(xt?,ht?1?)andc=q({h1?,...,hTx??})(1) 当
h
t
∈
R
n
h_t\in \mathbb{R}^n
ht?∈Rn在t时刻的隐藏状态,c是一个向量来自隐藏状态时序,f和q是一些非线性的函数。Sutskever et al(2014)使用一个LSTM作为f和例如
q
(
{
h
1
,
.
.
.
,
h
T
}
)
=
h
T
q(\{h1,...,h_T\})=h_T
q({h1,...,hT?})=hT?
1
^1
1我们的意识是最先进的性能,传统的以短语为基础的性能没有使用任何神经网络为基础的组件。
2
^2
2尽管之前大多数功能(看例如:Cho et al 2014a. Sutskever et al.2014;Kalchbrenner和Blunsom 2013)使用编码一个可变长的输入句子为固定长度的向量,它不是必须的,并且甚至有一个变长的向量可能是有意义的,我们将在后面展示。
编码器通过给与的内容向量c和所有之前预测的单词
{
y
1
,
.
.
.
,
y
t
′
?
1
}
\{y_1,...,y_{t^{'}-1}\}
{y1?,...,yt′?1?}来时常被训练来预测下一个单词
y
t
′
y_{t^{'}}
yt′?.换句话说,解码器通过分解联合概率成有序条件来定义翻译y的概率。
p
(
y
)
=
∏
t
=
1
T
p
(
y
t
∣
{
y
1
,
.
.
.
,
y
t
?
1
}
,
c
)
,
(2)
p(y)=\prod^T_{t=1}p(y_t|\{y_1,...,y_{t-1}\}, c),\tag{2}
p(y)=t=1∏T?p(yt?∣{y1?,...,yt?1?},c),(2)
当
y
=
(
y
1
,
.
.
.
y
T
y
)
y=(y_1,...y_{T_y})
y=(y1?,...yTy??).使用一个RNN,每一个条件概率被建模为:
p
(
y
t
∣
{
y
1
,
.
.
.
,
y
t
?
1
}
,
c
)
=
g
(
y
t
?
1
,
s
t
,
c
)
,
(3)
p(y_t|\{y_1,...,y_{t-1}\},c)=g(y_{t-1},s_t,c),\tag{3}
p(yt?∣{y1?,...,yt?1?},c)=g(yt?1?,st?,c),(3) 其中g是非线性的,可能多层次的,函数输出是
y
t
y_t
yt?,而
s
t
s_t
st?是RNN的隐藏状态。它应该注意,可以使用其他架构,诸如一个RNN和反卷积神经网络的混合(Kalchbrenner和Blunsom 2013)
3 学习对齐和翻译
在这个章节,我们关于神经网络机器翻译提出了一个新奇的架构。这个新架构由一个双向RNN组成作为一个解码器(看3.2)和在解码翻译的期间模拟搜索源语句的解码器。(看3.1)
3.1 解码器:一般描述
在一个新的模型架构,我们在等式中定义每一个条件概率KaTeX parse error: \tag works only in display equations
其中
s
i
s_i
si?是时刻iRNN隐藏状态,通过
s
i
=
f
(
s
i
?
1
,
y
i
?
1
,
c
i
)
s_i=f(s_{i-1},y_{i-1},c_i)
si?=f(si?1?,yi?1?,ci?)来计算。
它应该注意不像存在的编码器-解码器方法(看等式(2)),这里的概率以每一个目标词
y
i
y_i
yi?都是以不同的下上文为条件。
上下文向量
c
i
c_i
ci?取决于编码器将输入句子映射到一个时序的注释
(
h
1
,
.
.
.
,
h
T
x
)
(h_1,...,h_{T_x})
(h1?,...,hTx??)。每一个注释
h
1
h_1
h1?包含所有输入序列,重点关注输入序列的第i个单词的周围信息。我们详细的解释注释怎么计算在下一章节。
然后将上下文向量
c
i
c_i
ci?计算为这些注释
h
i
h_i
hi?的加权和
c
i
=
∑
j
=
1
T
x
α
i
j
h
j
(5)
c_i=\sum^{T_x}_{j=1}\alpha_{ij}h_j\tag{5}
ci?=j=1∑Tx??αij?hj?(5) 每一个注释
h
j
h_j
hj?权重
α
i
j
\alpha_{ij}
αij?通过下面的公式被计算
α
i
j
=
e
x
p
(
e
i
j
)
∑
k
=
1
T
x
e
x
p
(
e
i
k
)
(6)
\alpha_{ij}=\frac{exp(e_{ij})}{\sum^{T_x}_{k=1}exp(e_{ik})}\tag 6
αij?=∑k=1Tx??exp(eik?)exp(eij?)?(6) 在这里
e
i
j
=
a
(
s
i
?
1
,
h
j
)
e_{ij}=a(s_{i-1}, h_j)
eij?=a(si?1?,hj?)是一个对齐模型,评分输入位置j和输出位置i匹配的更好。这个分数是以RNN隐藏层状态
s
i
?
1
s_{i-1}
si?1?为基础(就在发射
y
i
y_i
yi?之前,等式(4))并且输入句子第j个注释
h
j
h_j
hj?.
我们确定对齐模型参数a作为正反馈神经网络,包括所有的其他提出系统的组件共同训练。注意不像传统机器翻译,对齐不用考虑隐藏的变量。相反,对齐模型直接计算一个软对齐,这允许损失函数的梯度通过反向传播。这个梯度被使用用于共同地训练对齐模型和全部翻译模型一样。
我们能理解拿所有注释权重和来计算一个期望的注释的方法,期望超过了可能对齐的可能。使得
α
i
j
\alpha_{ij}
αij?成为一个概率,目标单词
y
i
y_i
yi?被对齐或者翻译一个源单词
x
j
x_j
xj?.然后,第i个上下文向量
c
i
c_i
ci?是被期望的注释超过所有注释概率
α
i
j
\alpha_{ij}
αij?
概率
α
i
j
\alpha_{ij}
αij?,或者它的相关能量
e
i
j
e_{ij}
eij?,反应了注释
h
j
h_j
hj?的重要性,遵守之前的隐藏状态
s
i
?
1
s_{i-1}
si?1?决定下一个隐藏状态
s
i
s_i
si?和生成
y
i
y_i
yi?.直观地,这在解码器中注意力机制。解码器决定源句子中需要注意的部分。通过使得解码器有注意力机制,我们减轻了编码器必须要编码所有源句子到固定向量信息负担。由于这个新方法,信息能被传播,通过注释的时序,通过相应的解码器能被有选择的恢复。
3.2 编码器:关于注释序列的双向RNN
通常的RNN,使用等式(1)描述,读取一个输入句子
x
\textbf x
x,按顺序,从第一个标识符
x
1
x_1
x1?开始到最后一个
x
T
x
x_{T_x}
xTx??结束。当然,按照提议的方案中,我们希望每个单词的注释不仅能概述前面的单词,而且能概述后面的单词。因此,我们提出双向RNN(BiRNN,Schuster和Paliwal,1997),最近已经成功的使用在语音识别(看例如Graves et al.2013)。
一个BiRNN由一个正向和反向RNN组成。正向RNN
f
→
\mathop{f} \limits ^{\rightarrow}
f→?读取输入句子作为它的顺序(从
x
1
x_1
x1?到
x
T
x
x_{T_x}
xTx??)并且计算一个正向隐藏状态的时序(KaTeX parse error: Expected group after '^' at position 12: {\mathop{h}^? \limits \right…,…,KaTeX parse error: Expected group after '^' at position 12: {\mathop{h}^? \limits \right…).反向RNNKaTeX parse error: Expected group after '^' at position 11: \mathop{f}^? \limits \lefta…读取时序的反向顺序(从
x
T
x
x_{T_x}
xTx??到
x
1
x_1
x1?),导致反向隐藏状态时序(KaTeX parse error: Expected group after '^' at position 12: {\mathop{h}^? \limits \lefta…,…,KaTeX parse error: Expected group after '^' at position 12: {\mathop{h}^? \limits \lefta…)
我们获得每一个单词
x
j
x_j
xj?的注释通过连接前向隐藏状态KaTeX parse error: Expected group after '^' at position 12: {\mathop{h}^? \limits \right…和反向隐藏状态KaTeX parse error: Expected group after '^' at position 12: {\mathop{h}^? \limits \lefta…例如KaTeX parse error: Expected group after '^' at position 17: …_j=[{\mathop{h}^? \limits \right….用这种方法,注释
h
j
h_j
hj?包含所有之前单词的概述和所有之后单词的概述。由于RNN有更好表达最近输入的趋势,注释
h
j
h_j
hj?将会聚焦单词
x
j
x_j
xj?的周围。编码器和对齐模型稍后使用此注释序列计算上下文向量。等式5,6
看图1,用于建议模型的图例说明
4 实验设置
我们在英译法的任务上评估提出的方法。我们使用ACL WMT14
3
^3
3提供的双语平行语料库。作为比较,我们也报道RNN编码器-解码器的性能,最近由Cho 2014a提出的。对于所有的模型
4
^4
4,我们使用相同的训练程序和相关的数据集。
4.1 数据集
WMT 14包含如下英法平行语料:Europarl(6100万单词),新闻评论(550万单词),UN(42100万)和分别爬取的9000万语料和27250万单词,总计85000万单词。下面的程序描述在Cho 2014a,我们降低联合语料的大小到34800万词,使用的Axelrod 2011
5
^5
5数据选择的方法。除了提及的双向语料,我们没有使用任何单语数据,尽管它可能使用一个更大规模的单语语料库来预训练一个编码器。我们联合news-test-2012和news-test-2013作为我们的开发集(验证集)。评估模型在从WMT14的news-test-2014测试集,由没有出现在训练集的3003个句子组成。
一个通常的词语切分后
6
^6
6,我们在每个语言中使用30000个最高频的词候选名单来训练我们的模型。任何没有出现在候选名单中的单词都被映射成一个特殊的标记(UNK).我们没有采用任何其他的预处理,诸如对数据进行小写转换或词干提取。
4.2 模型
我们训练两类模型。第一个是RNN编码器-解码器(RNNencdec,Cho 2014a),和其他提出的模型,我们将其称作RNNsearch.我们训练每个模型两次:首先是单词长度不超过30个单词的句子(RNNencdec-30,RNNsearch-30)和然后单词的长度不超过50的句子。(RBBencdec-50,RNNsearch-50)
每一个RNNencdec编码器-解码器由1000个隐藏单元
7
^7
7。RNNsearch编码器由一个正向和反向循环神经网络组成,每一个RNN由1000个隐藏层。它的解码器有1000个隐藏层。在这两种情况下,我们使用一个多层网络具有单最大输出(Goodfellow et al.2013)隐藏层为了计算每一个目标单词的条件概率。(Pascanu et al. 2014)
我们使用批随机梯度下降法(SGD)和Adadelta(Zeiler 2012)算法一起训练每一个模型。每一个SGD更新方向每一最小批数据是使用80个句子进行计算。我们训练每一个模型大约5天。
一旦模型被训练,我们使用beam search寻找一个翻译的近似最大化的条件概率(看Graves 2012; Boulanger-Lewandowski等 2013;Sutslever 2014)使用这个方法生成翻译,根据他们的神经网络机器学习模型。
更多详细的内容在模型的架构并且训练的程序使用在实现中,请看附录A和B。
5 结果
5.1 定量结果
在表1,我们列出了翻译的性能测试在BLEU分数上。可以清楚的从表看出所有的情况,RNNsearch方法好过传统的RNNencdec。更重要的是,RNNsearch性能高达传统的以短语为基础的翻译系统(Moses)。仅仅当句子由已知的单词组成是被考虑的。这是重大的成就,考虑Moses使用独立的单语的语料(41800万单词)还有平行语料,我们使用这些语料训练RNNsearch和RNNencdec.
6
^6
6我们使用分词脚本从开源的机器翻译插件,Moses
7
^7
7在这个论文中,通过一个“隐藏单元”,我们总意味着有门控的隐藏单元(看附录A.1.1)
图3:通过RNNsearch50发现的4个对齐样本。每个图的x轴和y轴分别对应地源句子的单词(英文)和生成的翻译(法文)。每一个像素展示了第j个源单词到第i个目标词的释文权重
α
i
j
\alpha_{ij}
αij?(看等式6).在灰色图中(0:黑色,1:白色)。(a)一个任意的句子。(b-d)三个随机选择的样本,在测试集中没有未知单词且长度在10到20句子之中。
提议方法背后的动机之一是使用一个固定长度的上下文向量在基本的编码器-解码器方法。我们推测这可能会限制基本的编码器-解码器方法在长句子中变现的较差。在图2,我们会看到RNNencdec的性能会随着句子长度的增加而显著的下降。另一方面,RNNsearch-30和RNNsearch-50双方都更加的稳健对于句子的长度。特别RNNsearch-50性能没有恶化甚至句子的长度达到50或者更多。提出的模型的优势超过了解基本的编码器-解码器,通过事实进一步的确信RNNsearch-30的性能优于RNNencdec-50(看表1)
表1:训练模型在测试集的BLEU分数。第二列和第三列分别的展现了在所有句子和句子在它们自身和提及的译文没有未知的单词的分数。注意RNNsearch-50训练的时间更长直到在开发集的性能停止提升。
(
o
)
(^o)
(o)当仅评估没有未知单词的句子时,我们不允许句子生成[UNK]标记。
5.2 定性分析
5.2.1 对齐
提议的方法提出了一个直观的方法检查(软)对齐在生成翻译词和源句子中的词之间。通过公式6的释文权重
α
i
j
\alpha_{ij}
αij?可视化得到。每一个图的矩阵的每一行显示的权重和对应的释文。我们能看到当生成目标单词时在源句子中的哪个位置被考虑的更重要。
从图3的对齐可以看出,英语和法语之间的对齐在很大程度上是单调的。我们看到每一个矩阵沿着对角线都有很大的权重。当然,我们还看到了一些非平凡的、非单调的对齐。形容词和名词在法语和英语之间是典型的顺序不同,并且我们可以看图3的一个例子。从这个图,我们能看到模型正确翻译一个短语从 [European Economic Area] into [zone′economique europ′een].RNNsearch能够正确的对齐[zone]到[area],跳过了两个单词([European]和[Economic]),然后一个字一个字的完成整个短语 [zone′economique europ′een].
软对齐的优势跟硬连接是相反的,是明显的,例如,从图3(d).考虑源短语[the man]被翻译成 [l’ homme].任何硬的对齐将会映射[the]到[l’]和[man]到[homme]。这对于翻译没有帮助。一个必须要考虑紧跟[the]的单词来决定它是否应该被翻译为[le],[la],[les]或[l’].我们软对齐自然的解决了这个问题通过使模型[the]和[man]两者,在这个例子中,我们看到模型正确翻译[the]到[l’ ].在图3我们观测到相似的行为在所有目前的情况中。软对齐一个额外的好处是自然的处理了源短语和目标短语不同的长度,而不是反直觉的映射一些词或从任何地方[NULL] (看2010 Koehn的第四、第五章节 。)
5.2.2 长句子
从图2清晰明显的看到提出的模型(RNNsearch)是比传统的模型(RNNencdec)在翻译长句子的时候更好。这很可能由于RNNsearch不需要编码一个长句子到一个完全固定长度向量的因素,但是只对输入句子中特定单词周围的部分进行准确编码。
作为一个例子,考虑来自测试集的一个句子。
An admitting privilege is the right of a doctor to admit a patient to a hospital or a medical centre to carry out a diagnosis or a procedure, based on his status as a health care worker at a hospital.
RNNencdec-50翻译这个句子成。
Un privil ege d’admission est le droit d’un m′edecin de reconna??tre un patient `a l’h?opital ou un centre m′edical d’un diagnostic ou de prendre un diagnostic en fonction de son ′etat de sant′e.
RNNencdec-50正确的翻译源句子到[a medical center].当然,从下划线上,它偏离了源句子的原始含义。例如,在源句子中 [based on his status as a health care worker at a hospital]的被替换成 [enfonction de son ′etat de sant′e] (“based on his state of health”).
另一方面,RNNsearch-50生成下面正确的翻译,保留输入句子所有含义并且没有遗漏任何细节。
Un privil ege d’admission est le droit d’un m′edecin d’admettre un patient a un h?opital ou un centre m′edical pour effectuer un diagnostic ou une proc′edure, selon son statut de travailleur des soins de sant′e `a l’h?opital.
让我们考虑来自测试集的另一个句子
This kind of experience is part of Disney’s efforts to ”extend the lifetime of its series and build new relationships with audiences via digital platforms that are becoming ever more important,” he added.
RNNencdec-50的翻译如下
Ce type d’exp′erience fait partie des initiatives du Disney pour ”prolonger la dur′ee de vie de ses nouvelles et de d′evelopper des liens avec les lecteurs num′eriques qui deviennent plus complexes.
正如之前的例子,RNNencdec在生成大约30个单词之后开始偏离源句子的实际含义。在那之后,翻译的质量开始恶化,具有基本的错误,诸如缺乏右引号。
再一次,RNNsearch-50能够正确的翻译长句子。
Ce genre d’exp′erience fait partie des efforts de Disney pour ”prolonger la dur′ee de vie de ses s′eries et cr′eer de nouvelles relations avec des publics via des plateformes num′eriques de plus en plus importantes”, a-t-il ajout′e.
连同定量结果已经表达,定性观察结果确定我们的臆测,RNNsearch架构翻译长句子比标准的RNNencdec模型更可靠许多。
附录C,我们提供了再多一些从长的源句子的翻译样本,由RNNencdec-50,RNNsearch-50和谷歌翻译连同参考引用一起。
6 相关工作
6.1 学习对齐
一个相似的对齐方法最近被Graves(2013)提出,在手写合成的上下文中一个输入符号对应一个输出符号。手写合成是一个任务,在模型被要求生成给定时序字符的手写。在他的工作中,他使用一个混合高斯核方法来计算释文权重,其中每一个内核的位置,宽度,系数通过对齐模型预测。更特别地,他的模型在预测位置时是受限制以至于位置单调增加。
Graves(2013)跟我们的方法主要的不同,释文权重的模式只在一个方向移动。在机器翻译的上下文,这是苛刻的限制,作为长句子经常需要重新排序以生成一个从语法上讲正确的翻译。
我们的方法, 换句话说,在源句子给在翻译中的每个单词需要计算每个单词的权重。这个缺点是不严重的,关于翻译的任务大多数输入和输出句子只有15-40个单词。当然,这可能限制提出计划到其他任务的适用性。
6.2 神经网络机器翻译
自从Bengio 2003年介绍了一种神经概率语言模型,使用一个神经网络来模拟给定预测单词的固定数字,既是一个词的条件概,神经网络广泛使用在机器翻译中。当然,神经网络的作用主要限制在给现存的统计机器翻译系统提供简单单一的特征或者通过一个既存的系统重新排序候选翻译列表。
例如,Schwenk(2012)提出了使用一个正反馈神经网络来计算源短语和目标短语一对的分数并且使用这个分数作用一个额外的特征在短语为基础统计机器翻译系统。最近,Kalchbrenner和Blunsom(2013)和Devlin et al.(2014)报道了成功的使用神经网络作为既存翻译系统的子组件。传统上,一个神经网络训练作为一个目标侧语言模型使用重评分或者重排序一个翻译候选列表。(看Schwenk et al 2006)
尽管上面的方法已经展示了提高翻译的性能超过最先进的机器翻译系统,我们更感兴趣一个野心勃勃的目标,在神经网络的基础上设计设计一个完全新的翻译系统。因此在这篇论文中考虑的神经网络机器翻译方法跟之前的工作完全不同。而不是使用神经网络即作已存系统的一部分,我们的模型独立工作并且从源句子直接生成翻译。
7 结论
神经机器翻译的传统方法,叫做一个编码器-解码器方法,编码整个输入句子到一个固定长度的向量,一个翻译通过解码得到。我们臆测使用固定长度上下文向量对于一个长句子翻译是有问题的,根据最近一项实证研究被报道通过Cho et al (2014b)和Pouget-Abadie et al(2014).
在这篇论文,我们提出了一个新奇的架构来解决这个问题。我们扩展了基础的编码器-解码器通过使一个模型(软)搜索一组输入词。,或者他们的释文被一个编码器计算,当生成每一个目标词的。这会解放模型从必须编码一个全部的源句子到一个固定长度的向量,并且让模型仅仅聚焦生成下一个相关目标单词的信息。这有一个主要积极的影响在神经网络机器翻译系统在更长句子上产生了一个好结果。不像传统的机器翻译系统,翻译系统的所有部分,包括对齐机制,共同训练朝向一个更好的log概率通过产生正确的翻译。
我们测试提出的模型,叫做RNNsearch,在英译法的任务上。实验显示提出的RNNsearch性能显著的超过了传统的编码器-解码器模型(RNNencdec).不管句子的长度并且对于源句子的长度更加的稳健。从定性的分析在其中我们调查通过RNNsearch(软)对齐的生成,我们能推断模型能正确的对齐目标单词到相关的单词,或者它们的释文,在源句子中,因为它生成了一个正确的翻译。
或许更重要的,提出的方法实现了一个可以跟现存的基于短语统计机器翻译比较的性能。它是一个显著的结果,考虑提出的架构,神经网络机器翻译的大家族,直到今年才提出。我们相信在这提出的架构是希望的一步朝向更好的机器翻译并且更好的理解一般的自然语言。
将来一个剩余的挑战是更好处理未知的,或者稀有的单词。这需要模型更广泛的使用并且在所有上下文当中匹配前最先进的机器翻译系统的性能。
鸣谢
作者很想感谢Theano开发者(Bergstra el al 2010;Bastien et al. 2012)。我们感谢以下机构对研究基金和计算支持的支持:NSERC,Calcul Quebec,Compute Canada,the Canada Research Chairs和CIFAR.Bahdanau感谢行星智能系统的GmbH的支持。我们也感谢Felix Hill, Bart vanMerri′enboer, Jean Pouget-Abadie, Coline Devin and Tae-Ho Kim.
REFERENCES
Axelrod, A., He, X., and Gao, J. (2011). Domain adaptation via pseudo in-domain data selection. In Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 355–362. Association for Computational Linguistics.
Bastien, F., Lamblin, P., Pascanu, R., Bergstra, J., Goodfellow, I. J., Bergeron, A., Bouchard, N., and Bengio, Y. (2012). Theano: new features and speed improvements. Deep Learning and Unsupervised Feature Learning NIPS 2012 Workshop.
Bengio, Y., Simard, P., and Frasconi, P. (1994). Learning long-term dependencies with gradient descent is dif?cult. IEEE Transactions on Neural Networks, 5(2), 157–166.
Bengio, Y., Ducharme, R., Vincent, P., and Janvin, C. (2003). A neural probabilistic language model.
J. Mach. Learn. Res., 3, 1137–1155.
Bergstra, J., Breuleux, O., Bastien, F., Lamblin, P., Pascanu, R., Desjardins, G., Turian, J., Warde- Farley, D., and Bengio, Y. (2010). Theano: a CPU and GPU math expression compiler. In Proceedings of the Python for Scienti?c Computing Conference (SciPy). Oral Presentation.
Boulanger-Lewandowski, N., Bengio, Y., and Vincent, P. (2013). Audio chord recognition with recurrent neural networks. In ISMIR.
Cho, K., van Merrienboer, B., Gulcehre, C., Bougares, F., Schwenk, H., and Bengio, Y. (2014a). Learning phrase representations using RNN encoder-decoder for statistical machine translation. In Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014). to appear.
Cho, K., van Merrie¨nboer, B., Bahdanau, D., and Bengio, Y. (2014b). On the properties of neural machine translation: Encoder–Decoder approaches. In Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. to appear.
Devlin, J., Zbib, R., Huang, Z., Lamar, T., Schwartz, R., and Makhoul, J. (2014). Fast and robust neural network joint models for statistical machine translation. In Association for Computational Linguistics.
Forcada, M. L. and N? eco, R. P. (1997). Recursive hetero-associative memories for translation. In
J. Mira, R. Moreno-D′?az, and J. Cabestany, editors, Biological and Arti?cial Computation: From Neuroscience to Technology, volume 1240 of Lecture Notes in Computer Science, pages 453–462. Springer Berlin Heidelberg.
Goodfellow, I., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013). Maxout net- works. In Proceedings of The 30th International Conference on Machine Learning, pages 1319– 1327.
Graves, A. (2012). Sequence transduction with recurrent neural networks. In Proceedings of the 29th International Conference on Machine Learning (ICML 2012).
Graves, A. (2013). Generating sequences with recurrent neural networks. *arXiv:*1308.0850 [ .NE].
Graves, A., Jaitly, N., and Mohamed, A.-R. (2013). Hybrid speech recognition with deep bidirec- tional LSTM. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Work- shop on, pages 273–278.
Hermann, K. and Blunsom, P. (2014). Multilingual distributed representations without word align- ment. In Proceedings of the Second International Conference on Learning Representations (ICLR 2014).
Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut fu¨r Informatik, Lehrstuhl Prof. Brauer, Technische Universita¨t Mu¨nchen.
Hochreiter, S. and Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735–1780.
Kalchbrenner, N. and Blunsom, P. (2013). Recurrent continuous translation models. In Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1700–1709. Association for Computational Linguistics.
Koehn, P. (2010). Statistical Machine Translation. Cambridge University Press, New York, NY, USA.
Koehn, P., Och, F. J., and Marcu, D. (2003). Statistical phrase-based translation. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - Volume 1, NAACL ’03, pages 48–54, Stroudsburg, PA, USA. Association for Computational Linguistics.
Pascanu, R., Mikolov, T., and Bengio, Y. (2013a). On the dif?culty of training recurrent neural networks. In ICML’2013.
Pascanu, R., Mikolov, T., and Bengio, Y. (2013b). On the dif?culty of training recurrent neural networks. In Proceedings of the 30th International Conference on Machine Learning (ICML 2013).
Pascanu, R., Gulcehre, C., Cho, K., and Bengio, Y. (2014). How to construct deep recurrent neural networks. In Proceedings of the Second International Conference on Learning Representations (ICLR 2014).
Pouget-Abadie, J., Bahdanau, D., van Merrie¨nboer, B., Cho, K., and Bengio, Y. (2014). Overcoming the curse of sentence length for neural machine translation using automatic segmentation. In Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. to appear.
Schuster, M. and Paliwal, K. K. (1997). Bidirectional recurrent neural networks. Signal Processing, IEEE Transactions on, 45(11), 2673–2681.
Schwenk, H. (2012). Continuous space translation models for phrase-based statistical machine translation. In M. Kay and C. Boitet, editors, Proceedings of the 24th International Conference on Computational Linguistics (COLIN), pages 1071–1080. Indian Institute of Technology Bombay.
Schwenk, H., Dchelotte, D., and Gauvain, J.-L. (2006). Continuous space language models for statistical machine translation. In Proceedings of the COLING/ACL on Main conference poster sessions, pages 723–730. Association for Computational Linguistics.
Sutskever, I., Vinyals, O., and Le, Q. (2014). Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems (NIPS 2014).
Zeiler, M. D. (2012). ADADELTA: An adaptive learning rate method. *arXiv:*1212.5701 [ .LG].
|