IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 动手学深度学之数值稳定性&模型初始化&激活函数 -> 正文阅读

[人工智能]动手学深度学之数值稳定性&模型初始化&激活函数

数值稳定性

神经网络的梯度

  • 这里的t是第t层,这里 h t h^t ht是第t层的输出,y表示表示第1层到第d层的加上一个损失函数的一个目标函数。
  • 如果这里要计算损失 l \mathcal{l} l关于第t层的参数 W t W_t Wt?的梯度,就是用链式法则,一直往下求,求到第t层,这里我们的h是一个向量,向量关于向量的导数是一个矩阵,所以这里就可以看作d-t次的矩阵的乘法,这样的一个矩阵的乘法带来了两个问题,一个是梯度爆炸,一个是梯度消失
    在这里插入图片描述

数值稳定性的常见两个问题

  • 例子
    • 假如如下MLP(多层感知机)(这里为了简单省略了便宜偏移b)
      • f t ( h t ? 1 ) = σ ( W t h t ? 1 ) f_t(h^{t-1})=\sigma (W^t h^{t-1}) ft?(ht?1)=σ(Wtht?1),这里的 σ \sigma σ是激活函数
      • ? h t ? h t ? 1 = d i a g ( σ ′ ( W ′ h t ? 1 ) ) ( W t ) T \frac{\partial h^t}{\partial h^{t-1}}=diag(\sigma^{'}(W^{'}h^{t-1}))(W^t)^T ?ht?1?ht?=diag(σ(Wht?1))(Wt)T,这里 σ ′ \sigma ^{'} σ σ \sigma σ的导数函数
      • ∏ i = t d ? 1 ? h i + 1 ? h i = ∏ i = t d ? 1 d i a g ( σ ′ ( W i h i ? 1 ) ) ( W i ) T \prod_{i=t}^{d-1}\frac{\partial h^{i+1}}{\partial h^i}=\prod_{i=t}^{d-1}diag(\sigma^{'}(W^ih^{i-1}))(W^i)^T i=td?1??hi?hi+1?=i=td?1?diag(σ(Wihi?1))(Wi)T
        在这里插入图片描述

梯度爆炸

  • 使用ReLU作为激活函数
    在这里插入图片描述
  • 梯度爆炸的问题
    • 值超出值域(infinity)
      • 对于16位浮点数尤为严重
    • 对于学习率敏感
      • 如果学习率太大 -> 大参数值 -> 更大的梯度
      • 如果学习率太小 -> 训练无进展
      • 我们可能需要再训练的过程中不断调整学习率

梯度消失

  • 使用sigmoid作为激活函数,可以看图,当我们输入值很大,梯度就很小,接近于0
    在这里插入图片描述
    在这里插入图片描述
  • 梯度消失的问题
    • 梯度值变为0
      • 对于16位浮点数尤为严重
    • 训练没有进展
      • 不管如何选择学习率
    • 对于底部层尤为严重
      • 仅仅顶部层训练的较好
      • 无法让神经网络更深

总结

  • 当数值过大或者过小时会导致数值问题
  • 常发生在深度模型中,因为其会对n个数累乘

让训练更加稳定

  • 目标:让梯度值在一个合理的范围内
    • 例如: [1e-5, 1e3]
  • 将乘法变加法
    • ResNet,LSTM
  • 归一化
    • 梯度归一化,梯度裁剪
  • 合理的权重初始和激活函数

让每层的方差是一个常数

  • 将每层的输出和梯度都看做随机变量
  • 让它们的均值和方差都保持一致
    在这里插入图片描述

权重初始化

  • 在合理值区间里随机初始参数

  • 训练开始的时候更容易数值不稳定

    • 远离最优解的地方损失函数表面可能很复杂
    • 最优解附近表面可能会比较平
  • 使用 N ( 0 , 0.01 ) \mathcal{N}(0, 0.01) N(0,0.01)来初始化可能对小网络没问题,单不能保证深度神经网络

  • 例子:MLP
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • Xavier初始

    • 难以满足的原因是因为只有当一层的输入等于输出的时候才能满足
      在这里插入图片描述

假设线性的激活函数

在这里插入图片描述
在这里插入图片描述

检查常用的激活函数

在这里插入图片描述

总结

  • 合理的权重初始值和激活函数的选取可以提升数值稳定性
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-12 16:36:04  更:2021-08-12 16:37:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/12 1:42:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码