开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 《Attention is All You Need》浅读（简介+代码）笔记 -> 正文阅读

[人工智能]《Attention is All You Need》浅读（简介+代码）笔记

RNN 递归
在这里插入图片描述
本质上就是数学，各种模型只是去拟合一个数学公式或者函数而已，既然是函数，就明确好输入和输出

CNN 窗口遍历

attention,没个词做注意力计算

本质理解，不同维度的序列转换

调节因子的作用
注意力只是一种方式，不一定是点乘
在这里插入图片描述
参数不共享然后结果拼接

数学公式

一步到位捕捉全局信息

多头借鉴CNN的多个卷积核的思想
局部注意力借鉴了卷积窗口的思想
本质上是相同的

代码实现除了遵循原文公式还要考虑效率问题，会有不一样的操作，tf不能并行，mask机制等
在这里插入图片描述
三次序列映射，KQV，两次矩阵乘法

问题

在这里插入图片描述

原来为长文本做了铺垫

除了输入是ID，其他转换成向量，以及向量之间的参数运算，都是模型本身的参数而已

本质上是数学公式的运算

增加了一些特征

Q KV的理解，KV不就是类似字典的key和value吗
在这里插入图片描述
不同的epoch也有过拟合

解码attention后只取最后一步的

有padding时候的mask,有解码的时候屏蔽未来信息的mask,本质上都是为了方便底层做矩阵运算，采取的数学上面的技巧而已。
因为解码的训练过程，也是一次性的矩阵运算，但是为了训练和测试尽可能一致，假如mask的机制。