一、local minima 和 saddle point
- loss不下降是什么原因?梯度为0(critical point)
- 但local minima 的情况很少,一般saddle point
1.1 如何知道是卡在local minima 还是 saddle point
- 用泰勒级数模拟Loss在该点附近的形状
2. 根据Hessian判断形状:如果H正定则是local minima
1.2 H可能能告诉我们更新参数的方向
二、 Batch 和 Momentum
2.1 batch
- 实际中把所有的data分成一个一个batch,算完一个epoch后shuffle,让每次的batch都不一样
- 为什么要用batch? powerful,虽然冷却时间长,但是可以用GPU平行计算来解决
- small batch vs large batch
- 鱼与熊掌兼得?可以
2.2 Momentum
-
在移动参数时,加上前一步移动的方向综合决定 -
其实考虑进去了所有移动的总和
三、自动调整学习率
- loss不再下降的时候,gradient不一定很小。
- 自动调整学习率
- Adagrad
4. RMSProp 5. Adam
- Warm Up: 先变大后变小
四、 Classification
4.1 classification as regression
4.2 loss of classification
五、批次标准化(Batch Normalization)
- “把山铲平”的方法
5.1 Feature Normalization
- 标准化
5.2 Considering Deep Learning
-
标准化的时机在激活前和激活后差异不大,这里对z做 -
5.3 Batch Normalization
1.training 2. testing
|