IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习基础 -> 正文阅读

[人工智能]机器学习基础

偏差-方差分解

? 偏差-方差分解试图堆学习算法的期望泛化错误率进行拆解,把一种学习算法的期望误差分解为三个非负项的和,即样本 noise、bias 和 variance。
? 对于训练集 D,测试样本 x,y 为其真实标签, y D y_{D} yD? 为数据集中的标签, f ( x ; D ) f(x;D) f(x;D) 为学习的 x 的输出。学习算法的期望预测为 E D [ f ( x ; D ) ] E_{D}[f(x;D)] ED?[f(x;D)]
? noise:数据集中的标签和真实标记的差别,是期望误差的下界。 ε 2 = E D [ ( y D ? y ) 2 ] \varepsilon^{2}=E_{D}[(y_{D}-y)^{2}] ε2=ED?[(yD??y)2]
? bias:期望输出与真实结果的偏离程度,刻画了算法本身的拟合能力。 b i a s 2 ( x ) = ( E D [ f ( x ; D ) ] ? y ) 2 bias^{2}(x)=(E_{D}[f(x;D)]-y)^2 bias2(x)=(ED?[f(x;D)]?y)2
? variance:使用样本数相同的不同训练集产生的方差,刻画了数据扰动造成的影响。 v a r ( x ) = E D [ ( f ( x ; D ) ? E D [ f ( x ; D ) ] ) 2 ] var(x)=E_{D}[(f(x;D)-E_{D}[f(x;D)])^{2}] var(x)=ED?[(f(x;D)?ED?[f(x;D)])2]
? 泛化误差可如下分解: E ( f ; D ) = E D [ ( f ( x ; D ) ? y D ) 2 ] = b i a s 2 ( x ) + v a r ( x ) + ε 2 E(f;D)=E_{D}[(f(x;D)-y_{D})^{2}]=bias^{2}(x)+var(x)+\varepsilon^{2} E(f;D)=ED?[(f(x;D)?yD?)2]=bias2(x)+var(x)+ε2
? 随着训练程度的增加,偏差减小,方差增大,泛化误差先减后增。

优化方法

梯度下降(Gradient Descent)
? 算法通过沿梯度 g t g_{t} gt? 的相反方向更新权值来最小化损失函数,学习率 α \alpha α 控制更新步长。
? w t = w t ? 1 ? α g t w_{t}=w_{t-1}-\alpha g_{t} wt?=wt?1??αgt?
随机梯度下降(Stochastic Gradient Descent,SGD)
? 随机梯度下降(Stochastic Gradient Descent):针对一个训练样本在线学习。
? 批量梯度下降(Batch Gradient Descent):在整个训练集上计算梯度 g t g_{t} gt?
? 小批量梯度下降(Mini-batch Gradient Descent):折中方案,在一个 batch 中计算梯度,可利用矩阵计算。
Momentum 动量
SGD 更新方向完全依赖当前 batch,在遇到沟壑时容易陷入震荡,可以为其引入动量 Momentum,加速 SGD 在正确方向的下降并抑制震荡。
? v t = η v t ? 1 ? α g t v_{t}=\eta v_{t-1}- \alpha g_{t} vt?=ηvt?1??αgt?
? w t = w t ? 1 + v t w_{t}=w_{t-1}+v_{t} wt?=wt?1?+vt?
NAG(Nesterov Accelerated Gradient)
? 梯度 g t g_{t} gt? 不是根据当前参数位置计算出,而是根据先走了本来计划要走的一步后,达到的参数位置计算出来的。
Adagrad
? 对于更新不频繁的参数,希望单次步长更大,多学习一些知识;对于更新频繁的参数,则希望步长较小,使得学习到的参数更稳定。学习率设置为 η v t + ε \frac{\eta}{\sqrt{v_{t}+\varepsilon }} vt?+ε ?η?,对于此前频繁更新过的参数,其二阶动量的对应分量较大,学习率就较小。这一方法在稀疏数据的场景下表现很好。
RMSprop 均方根传播
? 在 Adagrad 中, v t v_{t} vt? 单调递增,导致学习率逐渐递减至 0,可能导致训练过程提前结束。为此考虑在计算二阶动量时不累积全部历史梯度,而只关注最近某一时间窗口内的下降梯度。
? v t = ρ v t ? 1 ? ( 1 ? ρ ) g t 2 v_{t}=\rho v_{t-1}- (1-\rho ) g_{t}^{2} vt?=ρvt?1??(1?ρ)gt2?
? w t = w t ? 1 ? η v t + ε g t w_{t}=w_{t-1}-\frac{\eta}{\sqrt{v_{t}+\varepsilon }}g_{t} wt?=wt?1??vt?+ε ?η?gt?
Adam
RMSprop 和 Momentum 的结合。
? v t = ρ v t ? 1 ? ( 1 ? ρ ) g t v_{t}=\rho v_{t-1}- (1-\rho ) g_{t} vt?=ρvt?1??(1?ρ)gt?
? s t = β v t ? 1 ? ( 1 ? β ) g t 2 s_{t}=\beta v_{t-1}- (1-\beta ) g_{t}^{2} st?=βvt?1??(1?β)gt2?
? w t = w t ? 1 ? η v t s t + ε g t w_{t}=w_{t-1}-\eta \frac{v_{t}}{\sqrt{s_{t}+\varepsilon }}g_{t} wt?=wt?1??ηst?+ε ?vt??gt?

损失函数


激活函数


贝叶斯分类器

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-26 12:05:46  更:2021-07-26 12:08:09 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 20:23:13-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码