[人工智能] 机器学习基础

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习基础 -> 正文阅读

[人工智能]机器学习基础

偏差-方差分解

? 偏差-方差分解试图堆学习算法的期望泛化错误率进行拆解，把一种学习算法的期望误差分解为三个非负项的和，即样本 noise、bias 和 variance。
? 对于训练集 D，测试样本 x，y 为其真实标签， $y_{D}$ 为数据集中的标签， $f (x; D)$ 为学习的 x 的输出。学习算法的期望预测为 $E_{D}[f(x;D)]$ 。
? noise：数据集中的标签和真实标记的差别，是期望误差的下界。 $\varepsilon^{2}=E_{D}[(y_{D}-y)^{2}]$
? bias：期望输出与真实结果的偏离程度，刻画了算法本身的拟合能力。 $bias^{2}(x)=(E_{D}[f(x;D)]-y)^2$
? variance：使用样本数相同的不同训练集产生的方差，刻画了数据扰动造成的影响。 $var(x)=E_{D}[(f(x;D)-E_{D}[f(x;D)])^{2}]$
? 泛化误差可如下分解： $E(f;D)=E_{D}[(f(x;D)-y_{D})^{2}]=bias^{2}(x)+var(x)+\varepsilon^{2}$
? 随着训练程度的增加，偏差减小，方差增大，泛化误差先减后增。

优化方法

梯度下降（Gradient Descent）
? 算法通过沿梯度 $g_{t}$ 的相反方向更新权值来最小化损失函数，学习率 $\alpha$ 控制更新步长。
? $w_{t}=w_{t-1}-\alpha g_{t}$
随机梯度下降（Stochastic Gradient Descent，SGD）
? 随机梯度下降（Stochastic Gradient Descent）：针对一个训练样本在线学习。
? 批量梯度下降（Batch Gradient Descent）：在整个训练集上计算梯度 $g_{t}$ 。
? 小批量梯度下降（Mini-batch Gradient Descent）：折中方案，在一个 batch 中计算梯度，可利用矩阵计算。
Momentum 动量
SGD 更新方向完全依赖当前 batch，在遇到沟壑时容易陷入震荡，可以为其引入动量 Momentum，加速 SGD 在正确方向的下降并抑制震荡。
? $v_{t}=\eta v_{t-1}- \alpha g_{t}$
? $w_{t}=w_{t-1}+v_{t}$
NAG（Nesterov Accelerated Gradient）
? 梯度 $g_{t}$ 不是根据当前参数位置计算出，而是根据先走了本来计划要走的一步后，达到的参数位置计算出来的。
Adagrad
? 对于更新不频繁的参数，希望单次步长更大，多学习一些知识；对于更新频繁的参数，则希望步长较小，使得学习到的参数更稳定。学习率设置为 $\frac{\eta}{\sqrt{v_{t}+\varepsilon }}$ ，对于此前频繁更新过的参数，其二阶动量的对应分量较大，学习率就较小。这一方法在稀疏数据的场景下表现很好。
RMSprop 均方根传播
? 在 Adagrad 中， $v_{t}$ 单调递增，导致学习率逐渐递减至 0，可能导致训练过程提前结束。为此考虑在计算二阶动量时不累积全部历史梯度，而只关注最近某一时间窗口内的下降梯度。
? $v_{t}=\rho v_{t-1}- (1-\rho ) g_{t}^{2}$
? $w_{t}=w_{t-1}-\frac{\eta}{\sqrt{v_{t}+\varepsilon }}g_{t}$
Adam
RMSprop 和 Momentum 的结合。
? $v_{t}=\rho v_{t-1}- (1-\rho ) g_{t}$
? $s_{t}=\beta v_{t-1}- (1-\beta ) g_{t}^{2}$
? $w_{t}=w_{t-1}-\eta \frac{v_{t}}{\sqrt{s_{t}+\varepsilon }}g_{t}$