李宏毅深度学习2021春p5-9：神经网络训练技巧

训练遇到的问题

参数不断的更新,training loss一开始下降，然后不会再下降，但距离0还有很远的gap；
一开始model就train不起来，不管怎么update参数，loss一直比较大。

导致上述问题的原因可能有很多，我们先回忆一下梯度下降算法在现实世界中面临的挑战：

问题1：局部最优（Stuck at local minima）
问题2：等于0（Stuck at saddle point）
问题3：趋近于0（Very slow at the plateau）

像这种gradient为0的点，统称critical point，我们先从问题1和问题2来看看如何“炼丹”。

局部最小值local minima和鞍点saddle point

Critical Point

gradient为0的点。

local minima

**现在所在的位置已经是局部loss最低的点，**往四周走 loss都会比较高，可能没有路可以走。

saddle point

**saddle point从某个方向还是有可能到达loss更低的位置，**只要逃离saddle point，就有可能让loss更低。

如何判断某个位置是local minima还是saddle point？

通过泰勒级数展开估计（Tayler Series Approximation）loss function的形状。

也就是，虽然无法完整、准确写出 $L(\theta)$ ，但如果给定某一组参数 $\theta'$ ，在 $\theta'$ 附近的loss function可以通过泰勒级数展开来估计：

第一项 $L(\theta')$ ：当 $\theta$ 跟 $\theta'$ 很近的时候, $L(\theta)$ 跟 $L(\theta')$ 比较靠近，但还有一些差距；
第二项 $(\theta-\theta')^Tg$ ：是一个向量,这个 $g$ 是gradient，这个gradient会来弥补 $\theta'$ 跟 $\theta$ 之间的差距。有时候gradient会写成 $\nabla L(\theta')$ ，它的第 $i$ 个component,就是 $θ$ 的第 $i$ 个component对 $L$ 的微分，加上这一项之后仍然还有差距；
第三项中 $(\theta-\theta')^TH(\theta-\theta')$ ：其中 $H$ 跟Hessian有关，是一个矩阵，第三项会再补足与真正的L(θ)之间的差距。 $H$ 是L的二次微分构成的矩阵,它第 $i$ 个row,第 $j$ 个column的值 $H_{ij}$ ，是把 $θ$ 的第 $i$ 个component,对 $L$ 作微分,再把 $θ$ 的第 $j$ 个component,对 $L$ 作微分,也就是做两次微分以后的结果。

总的来说， $L(\theta)$ 跟两个东西有关,跟gradient有关，跟hessian有关。gradient就是一次微分,hessian是内含二次微分的项目。

如果我们今天走到了一个critical point，意味着上式中 $g = 0$ ，只剩下 $L(\theta')$ 和红色的这一项：

于是可以通过红色这一项判断 $\theta'$ 附近的error surface长什么样，从而判断现在是在local minima、local max还是saddle point。

通过Hession矩阵判断 $\theta'$ 附近的error surface

把 $(\theta-\theta')$ 用向量 $v$ 来表示，根据 $v^THv$ 的值来判断：

线性代数中，如果所有的 $v$ 带入 $v^THv$ 的值都大於零，那 $H$ 叫做positive definite 正定矩阵。所以我们不需要通过穷举所有的点来判断 $v^THv$ 是大于零还是小于零，而是直接利用 $H$ 是否正定来判断。而判断 $H$ 是否是正定矩阵可以通过求解 $H$ 的特征值来判断。如果所有的eigen value特征值都是正的，那么 $H$ 就是positive definite 正定矩阵。

所以判断条件就转化为：

如何逃离saddle point？

** $H$ 不只可以帮助我们判断,现在是不是在一个saddle point,还指出了参数可以update的方向。**注意这个时候 $g = 0$ 。

根据 $\lambda x=Ax$ ，可以对式子进行转化：

于是如果 $λ < 0$ （eigen value<0）,那 $λ ‖ u ‖ 2 < 0$ ，所以eigen value是负的,那这一整项就会是负的,也就是 $u^THu$ 是负的，也就是红色整项是负的，于是 $L(\theta)<L(\theta')$ 。也就是说令 $\theta-\theta'=\mu$ ，在 $θ^{'}$ 的位置加上 $\mu$ ,沿 $\mu$ 的方向做update得到 $θ$ ,就可以让loss变小。