IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> BERT知识点梳理 -> 正文阅读

[人工智能]BERT知识点梳理

1 模型结构

1.token embedding :为什么attention is all you need中要乘上aqrt(hidden)?

因为位置编码使用sin/cos,值域比xavier初始化的token
embedding大很多[-0.13,0.13],所以要增强。但是BERT改变了position embedding的方式,就没有必要了

2.Scaled Dot Product:为什么是缩放点积,而不是点积模型?相较于加性模型,点积模型具备哪些优点?

当输入信息的维度 d 比较高,点积模型的值通常有比较大方差,从而导致 softmax函数的梯度会比较小。因此,缩放点积模型可以较好地解决这一问题。

常用的Attention机制为加性模型和点积模型,理论上加性模型和点积模型的复杂度差不多,但是点积模型在实现上可以更好地利用矩阵乘积,从而计算效率更高(实际上,随着维度d的增大,加性模型会明显好于点积模型)。

3.QK Projection:为什么是双线性点积模型?

双线性点积模型,引入非对称性,更具健壮性(Attention
mask对角元素值不一定是最大的,也就是说当前位置对自身的注意力得分不一定最高)。

4.Multi-head:多头机制为什么有效?

1.类似于CNN中通过多通道机制进行特征选择;
2.Transformer中先通过切头(spilt)再分别进行Scaled Dot-Product Attention,可以使进行点积计算的维度d不大(防止梯度消失),同时缩小attention mask矩阵。

5.FFN:FFN的作用?

Transformer在抛弃了 LSTM 结构后,FFN 中的 ReLU成为了一个主要的提供非线性变换的单元。

6.Weight tying:为什么要有Weight tying?

词表数量级高,这样可以减少参数量
虽然weight共享了,但是embedding和pre-softmax仍然是两个不同的层,因为bias是彼此独立的

7.GeLU:GeLU的原理?相比ReLU的优点?

GeLu:在激活中引入了随机正则的思想,
根据当前input大于其余inputs的概率进行随机正则化,即为在mask时依赖输入的数据分布,即x越小越有可能被mask掉,因此服从bernoulli(Φ(x))
ReLu:缺乏随机因素,只用0和1

8.BERT的优点

1.利用了文本的双向信息,得到基于上下文的token表示,效果更好
2.计算可并行化

9.BERT的缺点

1.[MASK]标记在实际预测中不会出现,训练时用过多[MASK]影响模型表现
2.每个batch只有15%的token被预测,所以BERT收敛得比left-to-right模型要慢(它们会预测每个token)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-23 11:28:02  更:2021-09-23 11:29:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 16:53:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码