IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> NLP-transformer部分知识点 -> 正文阅读

[人工智能]NLP-transformer部分知识点

1. ?Scaled Dot-Product Attention中为什么要除以\sqrt{d_k}

  • 计算公式:Attention(Q,K,V) = Softmax(\frac{QK^T}{\sqrt{d_k}})V
  • 在softmax中起到temperature的作用,即使分布趋于平滑,增加可能性
  • 为什么是d_k而不是 3、4、5等 随便一个数。。。

  • 解释一下上述引用内容

    • 一个比较强的假设:q、k属于多维独立同分布(标准正太分布N~(0,1))随机变量

    • E(q \cdot k) = E(\sum^{d_k}_{i=1}u_iv_i) = \sum^{d_k}_{i=1}E(u_iv_i) = 0

    • 同时根据 独立同分布随机变量 和 的方差等于方差的和,可以得到 \n\nD(q \cdot k) \\ = D(\sum^{d_k}_{i=1}u_iv_i) \\ = \sum^{d_k}_{i=1}D(u_iv_i) \\ = d_k * D(u_iv_i) \\ = d_k * [E(u_i^2v_i^2)-E^2(u_iv_i)] \\ = d_k * E(u_i^2v_i^2) \\ = d_k * Eu_i^2 * Ev_i^2 \\ = d_k

    • 可以发现点积后,均值不变,但是方差发生明显变化;为了使模型在一个统一的标准正太分布中学习,上述式子除以?\sqrt{d_k}即可满足要求;

2. transformer encoder对单词进行embedding时,为什么乘以\sqrt{d_k}(来自知乎)

  • 假设embedding table是用 Xavier初始化,即?E\sim N(0, \frac{1}{d_{model}})
  • 从onehot -> embedding,相当于从上述总体分布采样了d_{model}个样本,合起来称为该总体的一组子样本;
  • 记某组子样本(d_{model}维)的均值、样本方差分别为\overline{X}S^2,可得

?????????????????????????????????????????????????????????????????????E(\overline{X}) = 0\\ E(S^2) = 1/d_{model}

  • 所以?Embedding \sim N(0, 1/d_{model}),乘以\sqrt{d_k}以达到统一的标准正态分布的目的(知乎@王四喜)
  • 那么为什么不直接用N \sim (0, 1)进行初始化?
  • 知乎@Towser解释:因为transformer中可以设置tied-embedding的存在(减少参数),此时 比如 decoder最后输出softmax前,需要做一次线性映射(Linear)到词汇空间,linear的weight即来自于embedding的weight;线性层需要用到Xavier初始化,因此embedding层也就先用Xavier初始化,再缩放回来;

???????

?????????????????

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-21 18:58:09  更:2022-05-21 18:59:49 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 5:34:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码