自我注意力机制（Self-Attention）

这节课我们学习自我注意力机制（Attention）。

Self-Attention（自我注意力机制）

在这里插入图片描述

Attention的第一篇论文发表于2015年，用于改进Seq2seq模型对长句子的遗忘问题。其实Attention并不局限于Seq2seq模型，而是可以用在所有的RNN上。接下来我们介绍Self-attention，文章发表在2016年EMNLP上。

Self-attention原始论文把Attention用在LSTM上，本节课我们把论文内容进行简化，把LSTM换成Simple RNN，这样更容易理解。

初始时，状态向量 $h$ 和Context vector $c$ 都是全零向量。RNN读入第一个输入 $x_1$ ，需要更新状态 $h$ ，把 $x_1$ 的信息压缩到新的状态向量 $h$ 里面。标准的Simple RNN在计算 $h_1$ 时依赖输入 $x_1$ 和旧的状态 $h_0$ ，计算公式如下图所示：

在这里插入图片描述
而使用Self-attention后，计算公式变为这样：

在这里插入图片描述
即用 $c_0$ 代替 $h_0$ 。也可以用其他方法来更新，比如把 $x_1$ 、 $c_0$ 、 $h_0$ 做concatenation。算出新状态 $h_1$ ，下一步就是计算新的Context vector $c_1$ 。新的Context vector $c_1$ 是已有状态 $h$ 的加权平均。

由于初始状态 $h_0$ 是全零，我们忽略掉 $h_0$ ，那么已有状态的加权平均就等于 $h_1$ ，所以新的Context vector $c_1$ 就是 $h_1$ 。

然后计算 $h_2$ ，公式如下：
在这里插入图片描述
接下来计算新的Context vector $c_2$ 。想要计算 $c$ ，首先需要计算权重 $\alpha$ 。拿当前状态和已有的两个状态向量 $h$ 作对比（包括 $h_2$ 自己）。然后用权重进行加权平均计算 $c_2$ 。

在这里插入图片描述

以此类推，计算 $c_3$ ，…… $KaTeX parse error: Expected group after '_' at position 2: c_?$ 。

在这里插入图片描述

Summary（总结）

在这里插入图片描述
RNN都有遗忘的问题，使用Self-attention后就可以解决遗忘的问题。每次在更新 $c$ 之前，都会再重新看一遍之前的各个状态信息。

Self-attention与Attention的道理是一样的，但Self-attention不局限于Seq2seq模型，可以用在所有的RNN上。除了避免遗忘，Self-attention还能帮助RNN关注相关的信息。

上图为论文中的插图，RNN从左往右读一句话，红色的是当前输入，高亮标出的权重 $\alpha$ 很大的位置，这些权重 $\alpha$ 说明前文中最相关的词是哪几个。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章查看所有文章

加:2021-07-09 17:32:00 更:2021-07-09 17:32:54

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/16 9:55:33-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码