IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 李宏毅深度学习-网络设计的技巧 -> 正文阅读

[人工智能]李宏毅深度学习-网络设计的技巧

李宏毅深度学习-网络设计的技巧

本篇文章主要基于以下资料:
开源文档:课程开源文档
视频地址:B站开源视频

一、当optimization失败怎么办

在用梯度下降法优化参数时,当除最优值之外的某个点的梯度接近于0,得到的估计参数误差会比较大。这个点可能是local minima,也有可能是saddle point,其中saddle point是有方向改进的,因此我们需要区分是哪一种情形。
在这里插入图片描述

  • 判断是local minimum 还是saddle point
    在这里插入图片描述
    结合泰勒展开式,当梯度趋近于0时,绿框里的值就等于0,此时如果H矩阵是正定矩阵,那么红框里的值始终大于0,此时的损失函数值是局部最小的,也就是遇到了local minima;如果H矩阵是负定矩阵,那么红框里的值始终小于0,不管往哪个方向迭代,损失函数都在减小;如果H矩阵既不是正定也不是负定,就是saddle point。而H矩阵的正定与否可以根据特征根的正负来判断。
    下面的例子就展示w1=0,w2=0的点是saddle point,而不是local minima。
    在这里插入图片描述
    如果判断出该点是saddle point,我们可以先找到H矩阵的负值特征根对应的特征向量u,往该方向可以减小损失函数,具体原理如下图所示,但是通常我们并不用这种方法继续迭代,因为得到H矩阵以及特征根特征向量的计算量非常的大。
    在这里插入图片描述
  • saddle point VS local minima
    • 从高维角度来看local minima,或许就是一个saddle point

在这里插入图片描述

二、 batch and momentum

1.batch

在进行参数优化迭代时,不全部用到所有的样本数据,每一次迭代用到的样本量为batch size,所有的样本数据都完成一次迭代,就是1 epoch.
在这里插入图片描述

  • 为什么用batch
    不同batch对比
    考虑时间:larger batch的时间未必很长,除非batch size非常的大,那么时间就有个跃升。
    在这里插入图片描述
    batch size越小,训练集的准确率越大,当batch size很大时,准确率下降很多。
    在这里插入图片描述
    采取一定的手段,使得large batch size 和small batch size两种情形下得到的训练集准确率相同,但是batch size越小,预测效果越好
    在这里插入图片描述
    总结与对比:
    在这里插入图片描述
  • 从物理动量的角度思考
    在这里插入图片描述
    参数迭代的方向并不完全由gradient决定,由梯度和momentum共同决定
    在这里插入图片描述

三、自动调整学习率

实际上,我们遇到的很多training stuck 都不一定是因为small gradient导致的。
在这里插入图片描述
如上图所示例子,当学习率为0.01时,迭代一直在两端震荡,始终没有办法接近global minima,当减小学习率到10^-7时,参数进入了平缓区但是由于学习率过于小,即使迭代100000次仍然没办法到达global minima。因此我们希望学习率更具多样化,在不同情形下取不同的值。也就是满足下面这个形式。
在这里插入图片描述

  • root mean square
    实现坡度大时学习率小,坡度小的时候学习率大。
    在这里插入图片描述
    同样上面的例子使用root mean square可以得到右边的迭代图,可以发现确实参数更加接近global minima,但是在越趋近的时候就开始出现动荡。
    在这里插入图片描述
    为了解决这个问题,我们又引入了learning rate scheduling,其实就是让学习率随着迭代次数也发生迭代。
    在这里插入图片描述
    • learning rate decay
      随着参数的不断迭代,我们令学习率越来越小。
      在这里插入图片描述
    • **warm up **
      这部分内容在part 7 的32分钟左右,还需要对相关材料进行研究。
      在这里插入图片描述
  • RMS Prop
    在这里插入图片描述
    跟root mean square方法最大的区别是,该方法对邻近的点的权重更大,邻近的点的影响力更强,这也就导致学习率变化更敏感更快。
  • Adam (目前最常用的优化方法)
    在这里插入图片描述
    还需要自己进一步了解扩充这个部分。
  • 总结
    在这里插入图片描述
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-22 14:10:48  更:2021-07-22 14:11:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 11:27:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码