IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 李宏毅深度学习|Datawhale-7月 Task05 网络设计的技巧 -> 正文阅读

[人工智能]李宏毅深度学习|Datawhale-7月 Task05 网络设计的技巧

先吐槽一下,这个task名不大对,这五个视频明明讲的是炼丹2333。围绕着使Loss到达全局最优的目标,从梯度下降、学习率、batch、归一化等等角度阐述炼丹的经验。

【01】临界点

Loss如果没有到达全局最优点,就一定是到了局部最优吗?未必——
在这里插入图片描述
这个很好理解,就像 y = x 3 y = x^3 y=x3 x = 0 x=0 x=0处导数为0,但此时的 y y y并不是最小值甚至都不是极小值。放到机器学习里来,很明显这样的鞍点是不能接受的,因为还有可优化的空间。

01 如何区分?

在这里插入图片描述
这就要用到神奇的泰勒展开了——一次偏导为0了,二次偏导可未必啊,包含着更多的信息。
在这里插入图片描述
在这里插入图片描述
根据上面的推导,可以通过H矩阵的正定性来区分一个点是鞍点还是局部最优点。

02 如何解决鞍点?

在这里插入图片描述
关键还是这个二次偏导矩阵H,根据上面的推导,其实可以给出参数的更新方式,来找到新的使Loss下降的路径。

03 一些启发

在这里插入图片描述
在二维是局部最优点放到三维空间里就未必了,同样的,在低维空间里的局部最优,高维空间里未必是。想象不能抵达的边界,数学依然稳定,继续用更高次的偏导矩阵去计算就行。

【02】批次

在这里插入图片描述
往往在做机器学习和深度学习的时候,并不是拿全部的样本去做梯度下降,而是把训练集切割成等量的小批次。那么,批次的大小(batch size)对抵达最优点有什么影响呢?

01 直觉而言

在这里插入图片描述
大的花时间更长,但是直接。小的更快,但是噪声多。

02 然而……

在这里插入图片描述
直接给出结果图吧,挺反直觉的。
在这里插入图片描述
batch size更小,反而效果更好,以上是一种解释。

03 鱼与熊掌兼得?

在这里插入图片描述

【03】动量

对梯度下降的优化,最大的好处是可以冲过stuck
在这里插入图片描述
在这里插入图片描述
普通的梯度下降只会考虑这次计算出来的梯度,并以此作为更新参数的指导。
在这里插入图片描述
带动量的梯度下降,会考虑到上一次的更新方向——其实包含了之前所有的方向。
在这里插入图片描述
直观效果如上图。

【04】自适应学习率

在这里插入图片描述
上面讨论的临界点,很多时候达不到。

灵魂发问:loss不动的时候,gradient真的很小了吗?从来没关注过!

01 what and why?

在这里插入图片描述
最简单的只有两个参数的神经网络,使用梯度下降也不一定能到达最优点。

02 怎么解决?

在这里插入图片描述
不同参数需要不同的学习率,去适应不同参数的scale(归一化不行吗?
在这里插入图片描述
在这里插入图片描述
使用平方根来结合以前梯度
在这里插入图片描述
但这并不完美,所以需要继续改进
在这里插入图片描述
吐槽一下,这不是低通滤波吗?确实具备自适应能力
在这里插入图片描述
举例说明
在这里插入图片描述
!!!好多深度学习框架里都见过这个方法!
在这里插入图片描述
为什么会喷射?
在这里插入图片描述
再增加一个超参数!
在这里插入图片描述
warmup策略!还有上面提到的learning rate decay,都是经常用到的技巧。
总结一下最终版本的梯度下降:在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-22 14:10:48  更:2021-07-22 14:11:47 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/28 11:52:43-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码