IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> transformer学习之Layer Normalization -> 正文阅读

[人工智能]transformer学习之Layer Normalization

文章目录

题目
简介

题目

transformer学习之Layer Normalization

简介

Normalization

字面翻译 —> 标准化

分类

$\begin{cases} (1)\begin{cases}BatchNorm\\LayerNorm \end{cases}对第L层每个神经元的激活值或者说对于第L+1层网络神经元的输入值进行Normalization操作\\ (2)\begin{cases}Weight Norm\end{cases} 对神经网络中连接相邻隐层神经元之间的边上的权重进行规范化操作 \end{cases}\\$

作用

对于第(1)类的Normalization，它的作用是将均值变为0，方差变为1，即使得数据分布在中间部分。

它的公式为
$\widehat x_i = \gamma_i·\frac{x_i-\mu}{\sigma_i}+\beta_i$
$\mu$ 为均值， $\sigma$ 为方差

$\gamma_i$ 和 $\beta_i$ 是为了恢复原始某一层所学到的特征，使得模型的表达能力不因为规范化而下降

Batch Normalization

含义

利用网络训练一个 mini-batch 的数据来计算该神经元 $x_i$ 的均值和方差,因而称为 Batch Normalization

公式

$\mu=\frac{1}{M}\sum_ix_i\ \ \ \ \sigma=\sqrt{\frac{1}{M}\sum_i(x_i-\mu)^2}$

$M$ 为mini-batch大小

大致过程

在这里插入图片描述

$x^1、x^2、x^3...x^r...x^R$ 为一个mini-batch内的句子

$x_1^1、x_2^1、x_3^1...$ 为第 $x^1$ 个句子中的单词

Batch Normalization是将每一个句子中同一位置的单词进行计算求解 $\widehat x_i$

缺点

从上述过程中也可以看出Batch Normalization的缺点有

每一个句子的单词长度应该尽量相同，否则在计算时就空缺

当mini-batch太小时，计算出来的均值会太大影响结果集

Layer Normalization

Layer Normalization就是针对 BN 的上述不足而提出的，它不再采用一个批次每个句子同一位置的单词作为采样点，而是变成采集一个句子中所有单词的数据。

公式

$\mu=\frac{1}{H}\sum_ix_i\ \ \ \ \sigma=\sqrt{\frac{1}{H}\sum_i(x_i-\mu)^2}$

$H$ 为一个句子单词数

它是把一个句子中所有单词的输入，计算该层的平均输入值和输入方差，然后用同一个规范化操作来转换各个维度的输入

优点

起到缓解梯度消失/爆炸
加速训练、正则化的效果
适用于NLP中对于句子中单词数长短不一的情况

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-01-01 13:53:53 更:2022-01-01 13:54:47

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/15 7:35:26-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码