开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【机器学习】李宏毅 - 03 神经网络优化 -> 正文阅读

[人工智能]【机器学习】李宏毅 - 03 神经网络优化

Critical Point

定义：梯度（Gradient）为0的点。

Loss没有办法再下降，可能卡在了Critical Point：局部最小值（local minima）或鞍点（saddle point）。

在这里插入图片描述

局部最小值（local minima）

卡在局部最小，则没有路可以走了。

鞍点（saddle point）

卡在鞍点，则旁边还是有路可以走。

判断标准

考察 $\theta$ 附近损失函数的梯度 $\rightarrow$ 泰勒展开 $\rightarrow$ 海塞矩阵 $H$

在这里插入图片描述

概念

第一项中，当 $\theta$ 和 $\theta^{'}$ 很接近的时候， $L(\theta^{'})$ 和 $L(\theta)$ 很接近。

第二项中， $g$ 是一个向量，代表梯度（一阶导数），可以弥补 $L(\theta^{'})$ 和 $L(\theta)$ 之间的差距； $g$ 的第 $i$ 个component，就是 $\theta$ 的第 $i$ 个component对 $L$ 的微分。

第三项中， $H$ 表示海塞矩阵，是 $L$ 的二次微分/二阶导。

在Critical Point附近时，需考察 $H$ 的特征值

第二项为0，需要根据第三项来判断，考察 $H$ 的特征值。

在这里插入图片描述

当所有的eigen value都是正的， $H$ 是正定矩阵（positive definite），此时是局部最小值。
当所有eigen value都是负的， $H$ 是negative definite，此时是局部最小值。
当eigen value有正有负，那就是鞍点。

在这里插入图片描述

实例1

方法一：倒搜所有参数，得到所有loss的值，画出的Error Surface。

在这里插入图片描述

方法二：直接计算出一个点是局部最小还是鞍点。

一阶导为0 $\rightarrow$ 确定critical point
计算Hessian矩阵

在这里插入图片描述

观察 $H$ 的特征值正负

在这里插入图片描述

卡在鞍点时， $g$ 为0，可以利用 $H$ 的特征向量确定参数更新方向

在这里插入图片描述

步骤：

找出负的特征值（eigen value）。
找出对应的特征向量（eigen vector） $u$ 。
把特征向量 $u$ 加上 $\theta^{'}$ ，即沿着 $u$ 的方向更新，就可以找到一个新的点 $\theta$ ，这个点的loss比原来还要低。

实例2

在这里插入图片描述
注意：该方法需要算Hessian矩阵，计算量大，实际操作中很少用到。

局部最小值（Local Minima）比鞍点（Saddle Point）少得多

在这里插入图片描述

Loss在一个高维空间中，往往只会遇到鞍点，几乎不会遇到局部最小值点 $\rightarrow$ 从上图中可见，正特征值的数目最多只占所有特征值的60%，说明剩余40%的维度都仍然“有路可走”，可以让loss下降。

批次（Batch）与动量（Momentun）

总结：Small Batch size and momentum can help escape critical points.

Review：Optimization with Batch （Task2 05）

在更新参数时，我们拿 大B项样本数据 ，计算Loss和Gradient。
所有的Batch看过一遍，叫做一个Epoch。
Shuffle：每个Epoch开始前会重新分一次batch，每一个Epoch的batch都不一样。

Small Batch v.s. Large Batch

基本现象

在这里插入图片描述

左边的情况中，必须把20个样本数据遍历一遍后，我们的参数才能更新一次。

蓄力时间长（是这样吗？学下去！），但是威力比较大
右边的情况中，只需要一个样本数据就能更新一次参数。显而易见，用一个样本计算出的loss，是比较有噪声（ Noisy ）的，所以更新的方向是曲曲折折的。

技能冷却时间短（是这样吗？学下去！），但威力不准