1. 局部最小值与鞍点

1.1 相关定义：

可能是因为卡在了critical point上。但我们知道，这里面有两种情况

拿一个batch的资料拿出来算loss，所有的batch 看过一遍叫一个epoch
shuffle（洗牌）有很多不同的做法，常见的做法是在每一次epoch开始之前会分一次batch，每一个epoch的batch都不一样。
在这里插入图片描述

在这里插入图片描述

当你用大的batch size时，你的optimization可能会有问题。（model 一样，不是model bias的问题）
原因（一种解释）：假设你是full batch 你在update你的参数的时候，就是沿着一个loss function来update参数，当走到一个local minima 显然就停下来了
但是假如是small batch 的话，因为我们是每次挑一个batch出来算它的 loss 。等于是你每次update 你的参数的时候，你用的loss function都是略有差异的。选到第一个batch的时候是用L1来算你的gradient ，选到第二个batch的时候是用L2来算你的gradient ，假设你用L1算 gradient 的时候发现是0卡住了，但L2它的function与L1又不一样，L1卡住了，L2不一定会卡住啊，所以L1卡住没关系，换下一个batch来 L2再算gradient，你还是有办法training你的model，还是有办法让你的loss变小。

在这里插入图片描述
原因：在training loss上可能有很多个local minima，但local minima有好有坏，我们认为如果一个localminima 在一个峡谷里面，他就是一个坏的；在一个平原上，他就是一个好的。

因为training 和testing 之间会有差距，对“平原minima”来说，两者差的不会太多。“峡谷minima”就会差很多。
在这里插入图片描述
small batch or big batch

有一个初始的参数 $\theta_{0}$ 计算该点gradient ，计算完之后往gradient的反方向去update参数，一直继续下去
在这里插入图片描述

找一个初始参数，计算 $g_0$ ，下一步是gradient的方向加上前一步的方向
在这里插入图片描述

学过之前的东西，当loss不再发生变化的时候，你是否会认为此时一定到达critical point？你是否忘记了之前我们讨论学习率的时候那个学习率设置过大的后果？
在这里插入图片描述

原则：在坡度较大的地方，我们希望我们的步长小一点，此时我们应减小Learning Rate；在坡度较小的地方，我们希望我们的步长大一点，此时我们应增加Learning Rate
由原则的思想我们是否想到了之前谈论的进行学习率调整的adagrad算法，这个也就不在阐述。
在这里，我们要学会一个新的思路，那就是就算是同一个参数，他需要的学习率也会随时间而改变

新增一个hyper parameter： $\alpha$
通过对 $\alpha$ 的调整来调整 $g_i^{1}$ 的影响力大小。
1. 若 $\alpha$ 趋于0，则 $g_i^{1}$ 比较重要
2. 若 $\alpha$ 趋于1，则 $g_i^{1}$ 比较不重要，之前计算的gradient更加重要