IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> transformer学习之Layer Normalization -> 正文阅读

[人工智能]transformer学习之Layer Normalization

题目

transformer学习之Layer Normalization

简介

Normalization

字面翻译 —> 标准化

分类

N o r m a l i z a t i o n { ( 1 ) { B a t c h N o r m L a y e r N o r m 对 第 L 层 每 个 神 经 元 的 激 活 值 或 者 说 对 于 第 L + 1 层 网 络 神 经 元 的 输 入 值 进 行 N o r m a l i z a t i o n 操 作 ( 2 ) { W e i g h t N o r m 对 神 经 网 络 中 连 接 相 邻 隐 层 神 经 元 之 间 的 边 上 的 权 重 进 行 规 范 化 操 作 Normalization \begin{cases} (1)\begin{cases}BatchNorm\\LayerNorm \end{cases}对第L层每个神经元的激活值或者说对于第L+1层网络神经元的输入值进行Normalization操作\\ (2)\begin{cases}Weight Norm\end{cases} 对神经网络中连接相邻隐层神经元之间的边上的权重进行规范化操作 \end{cases}\\ Normalization????????(1){BatchNormLayerNorm?LL+1Normalization(2){WeightNorm??

作用

对于第(1)类的Normalization,它的作用是将均值变为0,方差变为1,即使得数据分布在中间部分。

它的公式为
x ^ i = γ i ? x i ? μ σ i + β i \widehat x_i = \gamma_i·\frac{x_i-\mu}{\sigma_i}+\beta_i x i?=γi??σi?xi??μ?+βi?
μ \mu μ为均值, σ \sigma σ为方差

γ i \gamma_i γi? β i \beta_i βi?是为了恢复原始某一层所学到的特征,使得模型的表达能力不因为规范化而下降

Batch Normalization

含义

利用网络训练一个 mini-batch 的数据来计算该神经元 x i x_i xi?的均值和方差,因而称为 Batch Normalization

公式

μ = 1 M ∑ i x i ???? σ = 1 M ∑ i ( x i ? μ ) 2 \mu=\frac{1}{M}\sum_ix_i\ \ \ \ \sigma=\sqrt{\frac{1}{M}\sum_i(x_i-\mu)^2} μ=M1?i?xi?????σ=M1?i?(xi??μ)2 ?

M M Mmini-batch大小

大致过程

在这里插入图片描述

x 1 、 x 2 、 x 3 . . . x r . . . x R x^1、x^2、x^3...x^r...x^R x1x2x3...xr...xR为一个mini-batch内的句子

x 1 1 、 x 2 1 、 x 3 1 . . . x_1^1、x_2^1、x_3^1... x11?x21?x31?...为第 x 1 x^1 x1个句子中的单词

Batch Normalization是将每一个句子中同一位置的单词进行计算求解 x ^ i \widehat x_i x i?

缺点

从上述过程中也可以看出Batch Normalization的缺点有

  • 每一个句子的单词长度应该尽量相同,否则在计算时就空缺
image-20211231222058572
  • 当mini-batch太小时,计算出来的均值会太大影响结果集

Layer Normalization

Layer Normalization就是针对 BN 的上述不足而提出的,它不再采用一个批次每个句子同一位置的单词作为采样点,而是变成采集一个句子中所有单词的数据。

image-20211231222036890

公式

μ = 1 H ∑ i x i ???? σ = 1 H ∑ i ( x i ? μ ) 2 \mu=\frac{1}{H}\sum_ix_i\ \ \ \ \sigma=\sqrt{\frac{1}{H}\sum_i(x_i-\mu)^2} μ=H1?i?xi?????σ=H1?i?(xi??μ)2 ?

H H H为一个句子单词数

它是把一个句子中所有单词的输入,计算该层的平均输入值和输入方差,然后用同一个规范化操作来转换各个维度的输入

优点

  • 起到缓解梯度消失/爆炸
  • 加速训练、正则化的效果
  • 适用于NLP中对于句子中单词数长短不一的情况
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-01 13:53:53  更:2022-01-01 13:54:47 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 20:51:37-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码