| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 深度学习算法笔记(1)--优化器相关 -> 正文阅读 |
|
[人工智能]深度学习算法笔记(1)--优化器相关 |
深度学习算法笔记(1)–优化器相关个人笔记,记录思考过程,已注明参考文献。 文章目录一、优化器1. 梯度下降相关1.1 梯度下降法(Gradient Descent Algorithm,GD)一层感知机的正向传递过程
a
1
[
l
?
1
]
a_{1}^{[l-1]}
a1[l?1]?:表示第
[
l
?
1
]
[l-1]
[l?1]层中第
1
1
1个感知机的输出。那么第
[
l
?
1
]
[l-1]
[l?1]层的总输出为
a
[
l
?
1
]
a^{[l-1]}
a[l?1]。 最后通过激活函数(sigmoid)得到该感知机的输出 那么,隐藏层的输出结果可以假设为
a
[
l
]
a^{[l]}
a[l](二分类任务中)或者是
a
i
[
l
]
a_{i}^{[l]}
ai[l]?(多分类任务中) ? 这里使用交叉熵损失函数(PS:详见第二章第一节交叉熵损失函数),简单定义为: 1.2 批量梯度下降法(Batch Gradient Descent, BGD)批量梯度下降法是最原始的形式,相对于
1.1
{1.1}
1.1中所描述的一样,这里是指所有的样本(整个数据集)。 1.3 随机梯度下降法(Stochastic Gradient Descent, SGD)相比于批量梯度下降取全部样本的交叉熵之和后去平均的方法,随机梯度下降则将交叉熵平方后再除以2,意思是说每次迭代使用一个样本来对参数进行更新。这样能够使训练速度加快。(batch_size=1) 1.4 小批量梯度下降法(Mini-batch Gradient Descent, MBGD)考虑到批梯度的方式在每次迭代时都要使用到所有的样本,这徒然增加了计算成本,因此,小批量梯度下降法(MBGD)利用了部分样本代替所有样本来参与计算的思想,引入了mini-batch的概念。 2. 动量法相关写在前面: θ \theta θ(参数)的移动基于动量 m t m_{t} mt?。 2.1 动量法(Momentum)
2.2 Nesterov Momentumm t = β 1 ? m t ? 1 ? l r ? ? J ( θ t ? 1 + β 1 ? m t ? 1 ) θ t = θ t ? 1 + m t m_{t}=\beta_{1} * m_{t-1}-{lr}* \nabla J\left(\theta_{t-1}+\beta_{1} * m_{t-1}\right) \\ \theta_{t}=\theta_{t-1}+m_{t} mt?=β1??mt?1??lr??J(θt?1?+β1??mt?1?)θt?=θt?1?+mt? 5. Adagrad针对于学习率,对学习率进行自适应约束,间接影响参数。 6. RMSprop由于AdaGrad单调递减的q学习率变化过于激进,RMSprop只关注过去一段时间的梯度平均值,离的时间越远越不重要。 7. AdadeltaRMSprop依然需要自己设定全局学习率,因此Adadelta在RMSprop的基础上,用参数更新的平方来替代全局学习率的位置,这样就可以省略全局学习率了。 8. 自适应矩估计(Adaptive moment estimation,Adam)融合一阶动量和二阶动量。 9.AdamWm ^ t = m t 1 ? β 1 t n t ^ = n t 1 ? β 2 t Δ θ t = ? η ? ( m ^ t n ^ t + ε + λ θ t ? 1 ) θ t = θ t ? 1 + Δ θ t \hat{m}_{t}=\frac{m_{t}}{1-\beta_{1}^{t}} \\ \hat{n_{t}}=\frac{n_{t}}{1-\beta_{2}^{t}} \\ \Delta \theta_{t}=-\eta *( \frac{\hat{m}_{t}}{\sqrt{\hat{n}_{t}+\varepsilon}}+\lambda{\theta_{t-1}} )\\ \theta_{t}=\theta_{t-1}+\Delta \theta_{t} m^t?=1?β1t?mt??nt?^?=1?β2t?nt??Δθt?=?η?(n^t?+ε?m^t??+λθt?1?)θt?=θt?1?+Δθt? 二、损失函数1.交叉熵损失函数什么是交叉熵损失函数? 二分类 在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为p和 1-p ,此时表达式为: 三、功能函数1.均值函数(mean function)—>可以用期望表示 E ( X ) E(X) E(X)1) 标题算术平均数(Arithmetic Mean) 优点:相比于中位数、众数,更少收到随机因素的影响 2.协方差函数(covariance function)1)协方差 References[1] 十三、梯度下降方法对比 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 6:02:01- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |