[人工智能] 李宏毅《机器学习》笔记3：梯度下降详解

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 李宏毅《机器学习》笔记3：梯度下降详解 -> 正文阅读

[人工智能]李宏毅《机器学习》笔记3：梯度下降详解

上一章我们讲到，在做回归的时候，要对损失函数利用梯度下降的方法来求得最佳的参数以确定模型，本章将详细介绍梯度下降的原理和细节。

先来简单复习一下梯度下降，在求线性模型中的w和b值时，要求loss function尽可能小，于是我们做如下的迭代计算：
$\left\{ \begin{array}{l} w_{i+1}=w_i-\eta \frac{\partial L}{\partial W}|_{w=w_i,b=b_i}\\ b_{i+1}=b_i-\eta \frac{\partial L}{\partial b}|_{w=w_i,b=b_i}\\ \end{array} \right.$

其中偏微分前面的常数称为学习率。

下面从几个方面来拆解梯度下降。

1.谨慎调整学习率

在这里插入图片描述

拿上图的例子来说，当我们调整学习率时，实际上是在调整每次梯度下降的移动步长。如红色线所示，这是最理想的状况，每次下降一个合适的步长，最终抵达最低点。但是我们不可能总是知道最优的学习率，于是也会出现蓝色线的情况，即调整的学习率偏小了，每次移动步长太短，梯度下降的效率就变慢了。当然也会出现绿色线或黄色线的情况，当学习率偏高时，绿色线直接卡在曲线中间，无法继续下降，而黄色线一开始便远离最低点。

右图展现了当每次参数更新时，loss function的值随着参数更新的变化情况。

● Adagrad算法

Adagrad算法做的工作其实很简单，就是把原来的学习率都除以之前微分的均方根。即：
在这里插入图片描述

化简后：

在这里插入图片描述

但是这里有一项看似矛盾地方：当微分值，也就是g较大的时候，其下降的步长也较大，同时均方根也偏大，就导致前面学习率/均方根这一项偏小，这又意味着其步长应该较小。。。。怎么理解这件事呢？如下图解释：

在这里插入图片描述

我们注意到步长的式子中：分子刚好是y对x的一阶偏导（对于多元函数），分母其实就是二阶偏导，这并非巧合！

在这里插入图片描述

所以结论是：最好的步长应该正比于一次微分，反比于二次微分！

2.随机梯度下降法

在这里插入图片描述

如上图左边所示：这是采取传统梯度下降法的可视化图，比如这里有20个training data，对于之前的梯度下降算法来说，我们是先对所有数据进行处理，得到损失函数，然后进行梯度下降。而右边的图则是随机梯度下降算法，每次仅计算某一个例子的损失函数，紧接着就梯度下降。这样做的好处是：时间花销与内存花销都大幅度减少，虽然最终的结果相较于批量梯度下降法的结果未必是精确的，但实验表明其结果总是在最优值附近，在很多情况下，这是人为允许的。