[人工智能] 详解 Deep Learning 的各种优化器（二）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 详解 Deep Learning 的各种优化器（二） -> 正文阅读

[人工智能]详解 Deep Learning 的各种优化器（二）

? 梯度下降是优化神经网络和许多其他机器学习算法的首选方法。本文将介绍各种基于梯度下降的优化器，如 Momentum，Adagrad 以及 Adam 的具体细节

本文将讲解以下概念：

Gradient Descent
Batch Gradient Descent
Stochastic Gradient Descent（SGD）
Min-batch Gradient Descent
Momentum
Nesterov accelerated gradient（NAG）
Adagrad
Adadelta
RMSprop
Adam
AdaMax
Nadam
AMSGrad

上一篇文章地址：

4.5 RMSprop

? RMSprop 是一个未被发表的自适应学习率算法，该算法由 Geoff Hinton 提出。

? RMSprop 和 Adadelta 在相同的时间内分别独立提出，均是为了应对 Adagrad 的急速下降的学习率的问题。实际上，RMSprop 是 Adadelta 的第一个更新向量的特例：

$E[g^2]_t = 0.9 E[g^2]_{t-1} + 0.1 g^2_t \\ \theta_{t+1} = \theta_{t} - \dfrac{\eta}{\sqrt{E[g^2]_t + \epsilon}} g_{t}$

同样，RMSprop 将学习率分解成一个平方梯度的指数衰减的平均。Hinton 建议将 $\gamma$ 设置为 0.9，对于学习率 $\eta$ 的一个合适的默认值为 0.001。

4.6 Adam

? 自适应矩估计（ Adaptive Moment Estimation，Adam ）是另一种每个参数的自适应学习率的方法。除了类似于 Adadelta 和 RMSprop 存储一个指数衰减的历史平方梯度的平均值 $v_t$ ，Adam 同时还保存了一个历史梯度的指数衰减均值 $m_t$ ，类似于动量。动量可以看成一个从斜坡上跑下来的球，而 Adam 的行为就像一个带有摩擦力的重球，因此它更喜欢误差表面上更为平缓的最小值。

? 我们计算过去和过去平方梯度的衰减均值 $m_t$ 和 $v_t$ 分别如下：

$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \\ v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$

$m_t$ 和 $v_t$ 分别对应梯度的一阶矩（均值）和二阶矩（非确定的方差）的估计，正如该算法的名称。当 $m_t$ 和 $v_t$ 初始化为 0 向量时，Adam 的作者发现到它们都偏向于 0 ，尤其是在初始化步骤和当衰减率很小的时候（例如 $\beta_1$ 和 $\beta_2$ 趋向于 1 ）

? 通过计算偏差校正的一阶矩和二阶估计来抵消偏差：

$\hat{m}_t = \dfrac{m_t}{1 - \beta^t_1}$
$\hat{v}_t = \dfrac{v_t}{1 - \beta^t_2}$

正如我们在 Adadelta 和 RMSprop 中看到那样，他们利用上述公式更新参数，由此生成了 Adam 的更新规则：

$\theta_{t+1} = \theta_{t} - \dfrac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t$

作者建议 $\beta_1$ 取默认值为 0.9， $\beta_2$ 为 0.999， $\epsilon$ 为 $10^{-8}$ 。他们从经验上表明 Adam 在实际中表现很好，同时，与其他的自适应学习算法相比，其更有优势。

4.7 AdaMax

? AdaMax 是 Adam 的一种变体，此方法对学习率的上限提供了一个更简单的范围。

? 在 Adam 中，单个权重的跟新规则是将其梯度与当前梯度 $g_t|^2$ 和过去梯度的 $\ell_2$ 范数（标量）成反比例缩放：

$v_t = \beta_2 v_{t-1} + (1 - \beta_2) |g_t|^2$

因此，我们可以推导出 $\ell_p$ 范数：

$v_t = \beta_2^p v_{t-1} + (1 - \beta_2^p) |g_t|^p$

虽然这样的变体会因为 $p$ 值较大而在数值上变得不稳定（这也是为什么 $\ell_1$ 和 $\ell_2$ 范数在实际场景中广泛应用的原因），然而，当 $\rightarrow \infty$ 时， $\ell_\infty$ 表现出极其稳定的特性。由此，AdaMax 的作者（Kingma and Ba, 2015）展示了由 $\ell_\infty$ 得到的 $v_t$ 拥有更好的稳定性。为了与 Adam 相区分，我们用 $u_t$ 表示无穷范数约束 $v_t$ :

$u_t = \beta_2^\infty v_{t-1} + (1 - \beta_2^\infty) |g_t|^\infty= \max(\beta_2 \cdot v_{t-1}, |g_t|)$

我们现在将上式插入到 Adam 更新公式：将 $\sqrt{\hat{v}_t} + \epsilon$ 替换为 $u_t$ ，得到 AdaMax 的更新规则：

$\theta_{t+1} = \theta_{t} - \dfrac{\eta}{u_t} \hat{m}_t$

注意到 $u_t$ 依赖于 max 运算，所以 AdaMax 不会像 Adam 中 $m_t$ 和 $v_t$ 趋向于 0 ，这也是为什么我们不需要去计算偏差校正。比较合适的参数设置： $\eta = 0.002,\beta_1=0.9,\beta_2=0.999$

4.8 Nadam

? 正如我们所见，Adam 可以被视为 RMSprop 和 momentum 的结合产物：RMSprop 提供历史平方梯度的指数衰减均值 $v_t$ ,而 Momentum 提供了历史梯度的指数衰减均值 $m_t$ 。与此同时按照前文叙述 NAG（Nesterov accelerated gradient ）是优于 Momentum 的。

? Nadm（Nesterov-accelerated Adaptive Moment Estimation）就算结合了 Adam 和 NAG 的产物。为了将 NAG 融入 Adam 中，我们需要修改其 Momentum 部分 $m_t$ 。

第一步，我们复习一下 Momentum 的更新规则：

$g_t = \nabla_{\theta_t}J(\theta_t)\\ m_t = \gamma m_{t-1} + \eta g_t\\ \theta_{t+1} = \theta_t - m_t$

其中， $J$ 是目标函数， $\gamma$ 是动量的衰减项， $\eta$ 是步长（即为学习率），展开第三个等式可得：

$\theta_{t+1} = \theta_t - ( \gamma m_{t-1} + \eta g_t)$

以上再次说明了当前动量的前一个动量上前进了一步，也在当前梯度方向上前进了一步。

? NAG 在计算梯度之前用动量步骤更新参数使得其在梯度方向上表现更为准确。我们只需要修改 NAG 中的梯度 $g_t$ ：

$g_t = \nabla_{\theta_t}J(\theta_t - \gamma m_{t-1})\\ m_t = \gamma m_{t-1} + \eta g_t\\ \theta_{t+1} = \theta_t - m_t$

Dozat 建议按照如下步骤修改 NAG：与应用两次动量步骤不同（一次更新梯度 $g_t$ ，一次跟新参数 $\theta_{t+1}$ ），我们直接更新参数：

$g_t = \nabla_{\theta_t}J(\theta_t)\\ m_t = \gamma m_{t-1} + \eta g_t\\ \theta_{t+1} = \theta_t - (\gamma m_t + \eta g_t)$

值得注意的是不同于上面扩展动量梯度更新规则方程利用动量 $m_{t-1}$ ，作者使用了当前动量向量 $m_t$ 去梯度更新。为了加上 Nesterov momentum 到 Adam 中去，作者类似地用当前动量向量替换之前的动量向量。

首先，我们将 Adam 梯度更新规则列出来（注意我们不需要修改 $\widehat{v}_t$ ）：

$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t\\ \hat{m}_t = \frac{m_t}{1 - \beta^t_1}\\ \theta_{t+1} = \theta_{t} - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t$

展开得到：

$\theta_{t+1} = \theta_{t} - \dfrac{\eta}{\sqrt{\hat{v}_t} + \epsilon} (\dfrac{\beta_1 m_{t-1}}{1 - \beta^t_1} + \dfrac{(1 - \beta_1) g_t}{1 - \beta^t_1})$

注意到 $\frac{\beta_1 m_{t-1}}{1-\beta_1^t}$ 是上一步的动量向量偏差修正估计，对此作者进行用 $\hat{m}_{t-1}$ 如下替换：

$\theta_{t+1} = \theta_{t} - \dfrac{\eta}{\sqrt{\hat{v}_t} + \epsilon} (\beta_1 \hat{m}_{t-1} + \dfrac{(1 - \beta_1) g_t}{1 - \beta^t_1})$

为了方便起见，作者忽略了分母是 $ 1- \beta_1^t$ 而不是 $1-\beta_1^{t-1}$ 。这个方程看起来与我们上面的扩展动量更新规则非常相似。我们现在可以在此之上添加 Nesterov momentum ，只需要简单使用当前动量向量的偏置校正估计 $\hat{m}_t$ 替换上一步衰减动量的偏置估计校正 $\hat{m}_{t-1}$ ，这样我们得到 Nadam 的梯度更新规则

$\theta_{t+1} = \theta_{t} - \dfrac{\eta}{\sqrt{\hat{v}_t} + \epsilon} (\beta_1 \hat{m}_t + \dfrac{(1 - \beta_1) g_t}{1 - \beta^t_1})$

4.9 AMSGrad

? 当自适应学习率算法成为训练神经网络的标准，从业者也注意到例如目标检测或者机器翻译并不是总能收敛到最优，并被带有 momentum 的 SGD 超越。

? Reddi 等人将这个问题形式化，并且指出过去平方梯度的指数移动平均值是自适应学习率算法泛化行为不佳的原因。回顾一下，指数均值的引入原因：为了防止学习率随着训练变得无穷小，这是 Adagrad 算法的关键缺陷。然而这种梯度的短期记忆在其他场景中成为障碍。

? 在 Adam 收敛到次优解的设置中，就已经注意到某些 minibatch 提供了大且丰富的梯度，但这些 minibatch 的出现十分罕见，指数平均减弱了它们的影响并导致了收敛性差的问题。作者提供了一个简单的凸优化问题例子中可以观察到 Adam 有着相同的行为。

? 为了修复这种行为，作者提出了一种新的算法 - AMSGrad ，用历史平方梯度 $v_t$ 的最大值而不是指数均值去更新参数。 $v_t$ 与上面 Adam 中定义相同：

$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$

不同于直接使用 $v_t$ （或者偏置校正的 $\hat{v}_t$ ），作者采用 $\hat{v}_{t-1}$ 和 $v_t$ 的最大值：

$\hat{v}_t = \text{max}(\hat{v}_{t-1}, v_t)$

这样，AMSGrad 算法的结果就不是一个递增的值，这避免了 Adam 所遇到的问题。为了简单起见，作者也删除了 Adam 中的 debiasing 步骤。完整的带偏置校正估计的 AMSGrad 更新规则如下：

$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$

$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$

$\hat{v}_t = \text{max}(\hat{v}_{t-1}, v_t)$

$\theta_{t+1} = \theta_{t} - \dfrac{\eta}{\sqrt{\hat{v}_t} + \epsilon} m_t$

相比于 Adam 作者在小数据集以及 CIFAR-10 上观察到更好的表现。然而，其他的实验中也展现了相同的或者更坏的表现（相比于 Adam）。AMSGrad 在实践中是否能够始终超越 Adam，还有待观察。

5. 其他优化算法

在 AMSGrad 之后出现了很多其他的优化器，包括：

AdamW：修复了 Adam 的权重衰减；
QHAdam：在更新权重时将动量项与当前梯度解耦，在更新权重时将均方梯度项与当前平方梯度解耦；
AggMo：结合了多个动量项 $\gamma$ ；

6. 优化器算法可视化

? 从上图我们能够看到这些优化器在损失平面的等高线图（ Beale 函数）随着时间的行为。注意到 Adagrad，Adadelta，以及 RMSprop 几乎立即朝着正确的方向并以同样的速度收敛，与此同时 Momentum 和 NAG 偏离方向，行为类似球从山上滚下来的场景。然而相比于 Momentum ，NAG 能够迅速纠正方向。

? 第二张图展示了优化算法在鞍点的行为，一个维度具有正斜率，而另一个维度具有负斜率的点，正如之前提到的，这对 SGD 造成了困难。注意到，SGD、Momentum 和 NAG 发现很难打破对称性，尽管后者最终设法逃离了鞍点，而 Adagrad、RMSprop 和 Adadelta 迅速下降到负斜率。

? 正如我们所看到的，自适应学习率方法，即 Adagrad、Adadelta、RMSprop 和 Adam 是最合适的，并且为这些场景提供了最好的收敛性。

7. 如何挑选优化算法？

? 那么，我们现在应该使用哪个优化器？如果的输入数据稀疏，那么我们可能会使用其中一种自适应学习率方法获得最佳结果。另一个好处是我们不需要调整学习率，但可能会使用默认值获得最佳结果。

? 总的来说，RMSprop 是 Adagrad 的扩展，改进其学习率急剧下降的问题。这和 Adadelta 是一致的，只是 Adadelta 在分子更新规则中使用参数均方根进行更新。Adam 最终结合偏置校正和 momentum 到 RMSprop。到目前为止，RMSprop、Adadelta 以及 Adam 是非常相似的算法，在一些相近的场景下都表现十分优异。Kingma 等人表明随着梯度变得更稀疏，它的偏差校正有助于 Adam 在优化结束时略微优于 RMSprop。就此而言，Adam 可能是最佳的整体选择。

? 有趣的是，最近的许多论文使用朴素 SGD 没有Momentum 且使用简单的学习率表。正如已经显示的那样，SGD 通常可以找到最小值，但它可能比使用某些优化器花费的时间长得多，更依赖于稳健的初始化和模拟退火表，并且可能会卡在鞍点而不是局部最小值。因此，如果您关心快速收敛并训练深度或复杂的神经网络，就应该选择一种自适应学习率方法。

8. 并行以及分布 SGD

? 鉴于大规模数据解决方案的普遍性和低成本集群的可用性，分布式 SGD 以进一步加速是一个明确可行的选择。

? SGD 本质上是连续的：一步一步朝着最低值前进。它可以提供良好的收敛性，但在超大型数据集上可能收敛十分缓慢。相比之下，异步 SGD 速度更快，但 worker 之间的不佳的通信会导致收敛效果差。此外，作者还可以在一台机器上并行化 SGD，而无需大型计算集群。以下是为优化并行化和分布式 SGD 提出的算法和架构。以下是为优化并行化和分布式 SGD 提出的算法和架构。

8.1 Hogwild!

? Niu 等人介绍了一种更新方案叫做 Hogwild! 。这允许在 CPU 上并行执行 SGD 更新。允许处理器在不锁定参数的情况下访问共享内存。这仅在输入数据稀疏时才有效，因为每次更新只会修改所有参数的一小部分。他们表明，在这种情况下，更新方案几乎达到了最佳收敛速度，因为处理器不太可能覆盖有用信息。

8.2 Downpour SGD

? Downpour SGD 是 Dean 等人使用的 SGD 的异步变体。在 Google 的 DistBelief 框架（TensorFlow 的前身）中。它在训练数据的子集上并行运行模型的多个副本。这些模型将它们的更新发送到一个参数服务器，该服务器分布在许多机器上。每台机器负责存储和更新模型参数的一小部分。但是，由于副本不相互通信，例如通过共享权重或更新，它们的参数不断面临发散的风险，阻碍收敛。

8.3 Delay-tolerant Algorithms for SGD

? McMahan 和 Streeter 通过开发不仅适应过去梯度而且适应更新延迟的延迟容忍算法，将 AdaGrad 扩展到并行设置。这已被证明在实践中运作良好。

8.4 TensorFlow

? TF 是谷歌开源的用于实施和部署大规模机器学习模型的框架。它基于他们在 DistBelief 方面的经验，并且已经在内部用于在大量移动设备和大规模分布式系统上执行计算。对于分布式执行，计算图被拆分为每个设备的子图，并使用发送/接收节点对进行通信。

8.5 Elastic Averaging SGD

? zhang 等人。提出了弹性平均 SGD（EASGD），它将异步 SGD 的 worker 的参数与弹性力联系起来，即参数服务器存储的中心变量。这允许局部变量从中心变量进一步波动，这在理论上允许对参数空间进行更多探索。他们凭经验表明，这种增加的探索能力可以通过寻找新的局部最优来提高性能。

9. 优化 SGD 的其他策略

? 最后，作者介绍了可以与前面提到的任何算法一起使用的其他策略，以进一步提高 SGD 的性能。

9.1 混洗和课程式学习

? 通常，我们希望避免以有意义的顺序向我们的模型提供训练示例，因为这可能会使优化算法产生偏差。因此，在每个 epoch 之后打乱训练数据通常是一个好办法。

? 另一方面，对于我们旨在逐步解决更难问题的某些情况，以有意义的顺序提供训练示例实际上可能会提高性能和更好的收敛性。建立这种有意义的秩序的方法称为课程式学习。

? Zaremba 和 Sutskever 只能训练 LSTM 来评估使用课程学习的简单程序，并表明组合或混合策略（通过对样本排序增加训练难度）比通过原始策略更好。

9.2 Batch Normalization

? 为了便于学习，我们通常通过用零均值和单位方差初始化参数的初始值来规范化参数的初始值。随着训练的进行和我们在不同程度上更新参数，我们失去了这种归一化，这会减慢训练并随着网络变得更深而放大变化。

? Batch Normalization 为每个小批量重新建立这些标准化，并且更改也通过操作进行反向传播。通过将归一化作为模型架构的一部分，我们能够使用更高的学习率并且更少关注初始化参数。Batch Normalization 还充当正则化器，减少（有时甚至消除）对 Dropout 的需求。

9.3 提前停止训练

? 根据 Geoff Hinton 的说法：“Early stopping (is) beautiful free lunch” (NIPS 2015 Tutorial slides, slide 63)。因此，我们应该在训练期间始终查看测试集上的误差，如果的测试集误差没有得到足够的改善，则及时停止。