[人工智能] 【梯度下降】原理和过程（一）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【梯度下降】原理和过程（一） -> 正文阅读

[人工智能]【梯度下降】原理和过程（一）

参考链接:
https://zhuanlan.zhihu.com/p/68468520

一、目的

损失函数用来衡量机器学习模型的精确度。一般来说，损失函数的值越小，模型的精确度就越高。如果要提高机器学习模型的精确度，就需要尽可能降低损失函数的值。而降低损失函数的值，我们一般采用梯度下降这个方法。所以，梯度下降的目的，就是为了最小化损失函数。
如损失函数MSE，见公式（1）：
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wq1b2Aiq-1645770279138)(https://www.zhihu.com/equation?tex=L%28w,b%29%20=%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi=1%7D%5E%7BN%7D%7B%28y_%7Bi%7D%20-%20f%28wx_%7Bi%7D%20%2b%20b%29%29%5E%7B2%7D%7D#pic_center)]$

二、原理

寻找损失函数的最低点，就像我们在山谷里行走，希望最快的方式找到山谷里最低的地方。在现实中，我们是寻找下降速度最快的一个方式。很显然，如果步速一致的时候，在相同的时间，坡最陡峭的方向是下降速度最快的。

最陡峭的方向—>梯度方向

一个样本对应着一个梯度 $\frac{d L}{dw}$ ，那么多个样本对应多个梯度。获得平均梯度 $\frac{dL}{\bar{w}}$ 当作整体样本的梯度。（可看作多个样本的”决策“平衡后的结果。）上图所示为只有一个权重 $w$ ，权重 $w$ 的方向就只有向左和向右之分。假设样本A每隔一定时间，观察一次最陡峭得方向，并沿着其方向前进。因此样本A在步速固定得情况下，其固定时间得步长s是相同得。那么权重 $w$ 得改变量为 $\Delta w=s* \frac{d L}{d w}$ (其中，上图所示 $\frac{dL}{dw}=cos \theta$ )

相同的时间*相同的步速==相同的路程—>学习率
因此下一个时刻得权重得更新值为： $w+|\Delta w|$ .对应到数学语言上来说，用 $w_i$ 表示权重的初始值， $w_{i+1}$ 表示更新后的权重值，用 $\alpha$ 表示学习率，则有公式（2）

在梯度下降中，我们会重复式子(2)多次，直至损失函数值收敛不变。

如果学习率 $\alpha$ 设置得过大，有可能我们会错过损失函数的最小值；如果设置得过小，可能我们要迭代式子(2)非常多次才能找到最小值，会耗费较多的时间。因此，在实际应用中，我们需要为学习率 $a l p h a$ 设置一个合适的值。
上面讲解了对权重 $w$ 值的优化过程，对于偏差 $b$ ，我们也可以用相同的方式进行处理，这里就不再展开了。