RNN 递归  本质上就是数学,各种模型只是去拟合一个数学公式或者函数而已,既然是函数,就明确好输入和输出  CNN 窗口遍历  attention,没个词做注意力计算  本质理解,不同维度的序列转换  调节因子的作用 注意力只是一种方式,不一定是点乘  参数不共享然后结果拼接  数学公式  一步到位捕捉全局信息   多头借鉴CNN的多个卷积核的思想 局部注意力借鉴了卷积窗口的思想 本质上是相同的  代码实现除了遵循原文公式还要考虑效率问题,会有不一样的操作,tf不能并行,mask机制等  三次序列映射,KQV,两次矩阵乘法
问题
    原来为长文本做了铺垫  除了输入是ID,其他转换成向量,以及向量之间的参数运算,都是模型本身的参数而已  本质上是数学公式的运算  增加了一些特征   Q KV的理解,KV不就是类似字典的key和value吗  不同的epoch也有过拟合   解码attention后只取最后一步的     有padding时候的mask,有解码的时候屏蔽未来信息的mask,本质上都是为了方便底层做矩阵运算,采取的数学上面的技巧而已。 因为解码的训练过程,也是一次性的矩阵运算,但是为了训练和测试尽可能一致,假如mask的机制。
如果您需要引用本文,请参考:
苏剑林. (Jan. 06, 2018). 《《Attention is All You Need》浅读(简介+代码) 》[Blog post]. Retrieved from https://kexue.fm/archives/4765
|