| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> 论文阅读:NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE -> 正文阅读 |
|
|
[人工智能]论文阅读:NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE |
abstract神经网络机器翻译是最近提出的一种机器翻译方法。与传统的统计机器翻译不同,神经网络机器翻译的目的是建立一个单一的神经网络,通过联合调节使翻译性能最大化。最近提出的神经机器翻译模型通常属于编码器-解码器系列,它们将源语句编码成一个固定长度的向量,解码器从中生成翻译。在本文中,我们推测,使用一个固定长度的向量是改善这个基本的性能瓶颈encoder-decoder架构,并提出自动扩展这个通过允许一个模型(软)搜索部分源相关的句子预测目标词,不需要将这些部分明确地构成硬段。通过这种新方法,我们在英法翻译任务上取得了与目前最先进的基于短语的翻译系统相当的翻译性能。此外,定性分析表明,模型发现的(软)对齐与我们的直觉很一致。 introduction与传统的基于短语的许多单独调整的小组件组成的翻译系统不同的是,而神经机器翻译则试图构建和训练一个单独的、大型的神经网络来阅读句子并输出正确的翻译。 大多数提出的神经机器翻译模型都属于编码器-解码器家族,对于每种语言都有一个编码器和一个解码器,或者包含一个特定于语言的编码器,应用于每个句子,然后对其输出进行比较。编码器神经网络将源语句读取并编码成固定长度的向量。然后译码器从编码的向量输出翻译。整个编码器-解码器系统,由语言对的编码器和解码器组成,共同训练,以最大限度地提高给定源句的翻译正确的概率。 这种编码器-解码器方法的一个潜在问题是,神经网络需要能够将源语句的所有必要信息压缩成固定长度的向量。这可能会使神经网络难以处理长句,特别是那些比训练语料库中的句子长。表明,随着输入语句长度的增加,基本编码器-解码器的性能确实会迅速下降。 为了解决这个问题,我们在编码器-解码器模型中引入了一个扩展,它学习对齐和翻译联合。该模型每次在译文中生成一个词时,都会(软)搜索源句中最相关信息集中的一组位置。然后,该模型根据与这些源位置相关的上下文向量以及之前生成的所有目标词预测目标词。 这种方法与基本的编码器-解码器最重要的区别是,它不试图将整个输入句子编码成单个固定长度的向量。相反,它将输入的句子编码成向量序列,并在解码翻译时自适应地选择这些向量的一个子集。这使得神经翻译模型不必将源句子的所有信息(无论其长度如何)压缩成固定长度的向量。我们证明,这可以让一个模型更好地处理长句。 BACKGROUND: NEURAL MACHINE TRANSLATIONRNN ENCODER–DECODER在encoder - decoder框架中,编码器将输入的句子,即向量x = (x1,···,xTx)序列读入向量c最常见的方法是使用这样的RNN
?通常训练解码器在给定上下文向量c和所有之前预测的单词{y1,···,yt0?1}的情况下预测下一个单词yt0。换句话说,解码器通过将联合概率分解为有序条件来定义翻译y上的概率:
Encoder architectureEncoder一般是RNN,它读入input sentence,一般是一连串的vector:X=(X1,X2,X3...XT),将其编码成一个vector C,公式如下:
其中,ht是encoder在t时刻的hidden-state,? C是由这些hidden-state最后生成的一个代表全句子的vector。经典的模型使用LSTM作为f,C=f吐出的最后一个hidden-state,也就是hT。 上面的结构,在运行期间,每个hidden state只包含了其前面的词的信息,作者使用了双向RNN( bidirectional RNN),即一个词的隐层状态不仅压缩了其前面的词的信息,还压缩了后面的词。其Encoder的架构如下图所示
一个BiRNN包含一个前向(forward)和一个后向(backward)RNN。前向RNN按照词序列 将用于后续的Decoder和对齐模型中。
|
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年12日历 | -2025/12/28 12:06:35- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |