[人工智能] 注意力模型直观理解（Attention Model Intuition）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 注意力模型直观理解（Attention Model Intuition） -> 正文阅读

[人工智能]注意力模型直观理解（Attention Model Intuition）

来源：Coursera吴恩达深度学习课程

本周的课程我们都在使用这个编码解码的构架（a Encoder-Decoder architecture）来完成机器翻译。当你使用RNN读一个句子，于是另一个会输出一个句子。注意力模型（the Attention Model）会使它工作得更好。注意力这种思想（the attention idea）已经是深度学习中最重要的思想之一，我们看看它是怎么运作的。

假设有一个很长的法语句子，绿色的编码器读取并记忆整个句子，然后在感知机中传递（to read in the whole sentence and then memorize the whole sentences and store it in the activations conveyed here）。这个紫色的解码网络（the decoder network）将生成英文翻译。但是，人工翻译并不会读整个法语句子，再记忆里面的东西，然后从零开始，机械式地翻译成一个英语句子。人工翻译可能是看一部分，翻译一部分，一直这样下去。因为记忆整个的像这样的的句子是非常困难的。

看这个Bleu score-Sentence length曲线图，我们看到这个编码解码结构对于短句子效果非常好，于是它会有一个相对高的Bleu分（Bleu score），但是对于长句子而言，比如说大于30或者40词的句子，它的表现就会变差（蓝色曲线）。整体来看，很短的句子很难得到所有词会难以翻译；对于长句子，效果也不好，因为在神经网络中，记忆非常长句子是非常困难的。在之后的学习中，会学习注意力模型，它翻译得很像人类。有了注意力模型，机器翻译系统的表现会像绿色曲线，因为翻译只会翻译句子的一部分，不会有一个巨大的下倾（huge dip），这个下倾实际上衡量了神经网络记忆一个长句子的能力，这是我们不希望神经网络去做的事情。

注意力模型源于Dimitri,?Bahdanau, Camcrun Cho, Yoshe Bengio。（Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.）虽然这个模型源于机器翻译，但它也推广到其他应用领域。Andrew认为在深度学习领域，这个是个非常有影响力和开创性的论文。

看这个法语：Jane visite l'Afrique en Septembre。（1）假定我们使用一个双向的RNN（a bidirectional RNN），为了计算每个输入单词的的特征集（set of features），我们必须要理解输出y-帽^<1>一直到y-帽^<5>的双向RNN。但是我们并不是只翻译一个单词，让我们先去掉上面的Y，然后对于句子里的每五个单词，计算一个句子中单词的特征集，也有可能是周围的词生成英文翻译。我们将使用另一个RNN生成英文翻译。用记号S来表示RNN的隐藏状态（the hidden state in this RNN），记为S^<1>。我们希望第一个生成的单词将会是Jane，那么我们应该看输入的法语句子的哪个部分？似乎你应该先看第一个单词或者它附近的词，但是别看太远了，比如句尾。

注意力模型就会计算注意力权重（a set of attention weights）。用α^<1,1>来表示生成第一个词时应该放多少注意力在这个第一块信息处。α^<1,2>表示计算第一个词Jane时，我们应该花多少注意力在输入的第二个词上面。α^<1,3>同理。注意力权重将评估应该花多少注意力在记号为C的内容上。这就是RNN的一个单元，如何尝试生成第一个词的，这是RNN的其中一步（蓝色标记）。（2）对于RNN的第二步（紫色标记），我们将有一个新的隐藏状态S^<2>，使用一个新的注意力权值集(a new set of the attention weights)，α^<2,1>表示在生成第二个词时应该花多少注意力在输入的第一个法语词jane上, visits就会是第二个标签了(the ground trip label)。α^<2,2>也同理，花多少注意力在visite词上。当然我们第一个生成的词Jane也会输入到这里，于是我们就有了需要花注意力的上下文，然后会一起生成第二个词，（3）第三步S^<3>（绿色标记），visits也是输入，我们再有上下文C，它取决于不同的时间集（time sets），其他分析过程类似。