| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> PyTorch Week 3——权值初始化操作 -> 正文阅读 |
|
[人工智能]PyTorch Week 3——权值初始化操作 |
系列文章目录PyTorch Week 3——nn.MaxPool2d、nn.AvgPool2d、nn.Linear、激活层 PyTorch Week 3——权值初始化操作前言本节通过代码和公式推导理解梯度消失和梯度爆炸产生的原理,以及通过初始化权重的解决方法。 一、梯度消失与梯度爆炸1、通过公式推导分析导致梯度消失和爆炸的原因不考虑激活函数和偏差,探究权重初始化对输出的影响 演示前一层输出导致梯度爆炸以3层线性层为例:
打印输出,爆炸了。 公式推导探究每一层的输出越来越大的原因不考虑bias,已知X*Y的标准差 = X,Y的标准差的乘积,则第11层的输出H11的方差=n×(X的方差)×(W)的方差,初始化时输入和每一层的权重都是均值0,标准差为1(方差为1)的,所以:第1层第一个单元的输出的标准差为根号下n,每层扩大根号下n倍 公式推导探究缓解梯度爆炸的方法如下图,只要保证每一层的输出方差为1即可 代码验证
二、考虑激活函数的影响1.Xavier初始化公式参考文献:《Understanding the difficulty of training deep feedforward neural networks》 为了满足方差一致性,权重的方差应该满足左式。 代码首先添加激活函数层,然后修改权重初始化方式
依然维持较小的值
完全一致 2.Kaiming初始化方法参考文献Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification 公式方差一致性 代码激活函数改为:
初始化改为:
结果 三、十种初始化方法总结
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 8:28:26- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |