| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 深度学习Optimizer优化器小结 -> 正文阅读 |
|
[人工智能]深度学习Optimizer优化器小结 |
深度学习Optimizer优化器总结禁止任何形式的转载!!! 简介现在深度学习所用的优化器大多可以划分为两大类: 代码torch.optim包里实现了实现各种常用的优化算法,使用时先建立优化器对象
使用示例:
优化器算法介绍1.SGD带动量的随机梯度下降SGDM是最常用的方法
参数含义:假设g为梯度,p为参数 SGD的特点:由于积累之前的动量来替代真正的梯度,下降初期时,使用上一次参数更新,下降方向一致,乘上较大的μ能够进行很好的加速。在梯度方向发生改变时,μ能减少更新,抑制振荡,从而加快收敛。 2.Adagrad自适应梯度算法是为了自适应调整学习率,给学习率加上了一项分母。
特点:学习率随着梯度值的累加而变小,起到了学习率减少的作用;中后期由于分母的累积会使得学习率很小,可能使得训练提前结束。(较少使用) 3.RMSprop
由于Adagrad一直累加之前的所有梯度,使得学习率之后很小,且受全局的梯度影响。RMSprop这里进行了改进,分母虽然是累加但是经过了指数加权移动平均,可以看作只受最近的梯度影响。 特点:训练初中期,加速效果不错,很快训练,后期,梯度小学习率变大,可能会反复在局部最小值附近抖动,也可能跳出局部最小值找到更好的解。 3.Adadelta
AdaDelta算法也像RMSProp算法一样
与RMSProp算法不同的是,AdaDelta算法还维护一个额外的状态变量Δx AdaDelta算法没有学习率超参数,它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。 5.Adam
Adam是RMSProp的动量版,原来的梯度变成带动量的梯度,此外还为了消除刚开始没有梯度累计时的偏差,除了一项随时间变大的式子。 所以有人提出了amsgrad:但是这样又会使得分母越来越大,出现早停 此外,有人在使用Adam的时候将lr打印出来发现后期学习率会比较极端,量级相差较大。 6.Adamax
Adamax是Adam的一种变体,此方法对分母部分进行了改进,Adam单个权重的更新规则是将其梯度与当前和过去梯度的L2范数成反比例缩放,这里泛化到基于Lp范数的更新规则,虽然p的值较大会使得数值上变得不稳定,但令p趋于无穷会得出一个稳定和简单的算法。经过推导,分母的更新变成了max(),增加了一个学习率上限的概念,与原来的gt2不同。与AMSgrad有一定相似之处。 7.NAdam
NAdam是将Nesterov NAG的思想用到了Adam上 8.RADAM
将warmup的思想用到ADAM上 9.AdamW*
AdamW是在Adam+L2正则化的基础上进行改进的算法
所以,注意区分L2 penalty 与weight decay,下面两图分别是Adam与AdamW参数的解释,可见在优化器里着两者有着不同的含义。 其它小结就我个人而言,喜欢使用SGD搭配learning rate schedules,通过多次实验找到一个适合模型训练的学习率和策略,一般来说在验证集的精度上要比Adam要好一点。不过,在合适的初始化和优化器下,不同优化器给模型带来的提升其实并不大,可以多花时间在其它地方进行优化。 请看下一个息息相关的小结:learning rate schedules总结 目前较为出名的模型,YOLO、MaskRCNN、ResNet等都采用SGDM,Transformer、Bert、Big-GAN、MEMO等都采用的Adam。 禁止任何形式的转载!!! |
|
|
上一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/22 10:30:59- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |