[人工智能] Transformer

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Transformer -> 正文阅读

[人工智能]Transformer

1. 序列到序列任务中的编码器-解码器架构

Transformer ：通用特征提取器

seq2seq （一种任务类型）从原序列到目标序列例：翻译任务
encoder-decoder 完成seq2seq的其中一种网络结构
attention机制

RNN Encoder-Decoder网络架构

在这里插入图片描述
使用循环神经网络，将变长源序列X编码成定长（难点）向量表示c，并将学习的定长向量表示c解码成变长木变序列Y。

2.序列到序列任务中的注意力机制

Seq2Seq with Attention网络架构

在这里插入图片描述
加权平均

3. Attention机制（没有序列顺序）

3.1 柔性注意力机制

输入信息X=[x1…xN]
注意力机制计算：

在输入信息上计算注意力分布
根据注意力分布计算输入信息的加权平均

注意力分布

给定一个和任务相关的查询向量q，用注意力变量z∈[1,N]表示呗选择信息的索引位置，即z=i表示选择了第i个输入信息。其中，查询向量q可以是动态生成的，也可以是可学习的参数。

注：大部分情况下q取的是当前序列的前序序列

柔性注意力的注意力分布：
在给定输入信息X和查询变量q下，选择第i个输入信息被选中的概率：
在这里插入图片描述
其中，αi称为注意力分布，s(xi,q)称为注意力打分函数
注意力打分函数：（缩放点积最常见）

如下图，在柔性注意力机制中，输入X不仅要参与计算αi，还要参与最后的加权平均计算。键值对注意力机制改善了这个问题。
在这里插入图片描述