| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 李宏毅机器学习组队学习打卡活动day03---误差和梯度下降 -> 正文阅读 |
|
[人工智能]李宏毅机器学习组队学习打卡活动day03---误差和梯度下降 |
写在前面这次是李宏毅机器学习组队学习的第三次打卡任务,学习误差和梯度下降的内容,之前也是了解过一些,但是理解不渗透,这次好好总结一下。
误差的来源从上一节的回归的例子可以看出来,Average Error 随着模型复杂程度呈指数型增加,其来源主要是bias和variance。 bias 描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,简单的说,就是在样本上拟合的好不好,想要在bias上表现得好,就得复杂化模型,增加模型的参数,但这样容易过拟合(overfitting),过拟合对应的是high variance. varience描述的是样本上训练出来的模型在测试集上的表现,想要在variance上表现好,就要简化模型,减少模型的参数,但这样容易欠拟合(unfitting),欠拟合对应的是high bias。 估测变量x的偏差和方差误差的期望值 = 噪音的方差 + 模型预测值的方差 + 预测值相对真实值的偏差的平方 靶心(红点)是测试样本的真实值,测试样本的y(橙色点)是真实值加上噪音,特定模型重复多次训练会得到多个具体的模型,每一个具体模型对测试样本进行一次预测,就在靶上打出一个预测值(图上蓝色的点)。所有预测值的平均就是预测值的期望(较大的浅蓝色点),浅蓝色的圆圈表示预测值的离散程度,即预测值的方差。 所以,特定模型的预测值 与 真实值 的误差的 期望值,分解为上面公式中的三个部分,对应到图上的三条橙色线段:预测值的偏差、预测值的方差、样本噪音。 评估x的偏差假设 x 的平均值是 μ \mu μ,方差为 σ 2 \sigma^2 σ2 评估平均值做法:
m
m
m分布对于
μ
\mu
μ 的离散程度(方差): 这个取决于 N,下图看出 N 越小越离散: 当模型足够复杂的时候,通常会体现出high variance: 一次模型的方差就比较小的,也就是是比较集中,离散程度较小。而5次模型的方差就比较大,同理散布比较广,离散程度较大。 考虑不同模型的偏差这里没办法知道真正的 f ^ \hat{f} f^? ,所以假设图中的那条黑色曲线为真正的 f ^ \hat{f} f^? 结果可视化,一次平均的 f ˉ \bar{f} fˉ? 没有5次的好,虽然5次的整体结果离散程度很高。一次模型的偏差比较大,而复杂的5次模型,偏差就比较小。 偏差v.s.方差如何判断过拟合还是欠拟合如果模型没有很好的训练训练集,就是偏差过大,也就是欠拟合 如果模型很好的训练训练集,即再训练集上得到很小的错误,但在测试集上得到大的错误,这意味着模型可能是方差比较大,就是过拟合。 对于欠拟合和过拟合,是用不同的方式来处理的。 偏差大-欠拟合:重新设计模型 方差大-过拟合:增加数据量,加强对整体分布的捕捉,减少落在局部的可能性。 交叉验证图中public的测试集是已有的,private是没有的,不知道的。交叉验证 就是将训练集再分为两部分,一部分作为训练集,一部分作为验证集。用训练集训练模型,然后再验证集上比较,确实出最好的模型之后(比如模型3),再用全部的训练集训练模型3,然后再用public的测试集进行测试 N-折交叉验证比如在三份中训练结果Average错误是模型1最好,再用全部训练集训练模型1 梯度下降法在回归问题的第三步中,需要解决下面的最优化问题: 自适应学习率举一个简单的思想:随着次数的增加,通过一些因子来减少学习率
Adagrad算法
对其化简,有KaTeX parse error: Expected '}', got 'EOF' at end of input: …^t (g^i)^2} g^t 随机梯度下降法之前的梯度下降: 而随机梯度下降法: 对比: 特征缩放假设有个函数: 标准化缩放特征: 梯度下降的理论基础
不考虑s的话,可以看出剩下的部分就是两个向量
(
Δ
θ
1
,
Δ
θ
2
)
(\varDelta \theta_1, \varDelta \theta_2)
(Δθ1?,Δθ2?)和 (u,v)(u,v) 的内积,那怎样让它最小,就是和向量 (u,v)(u,v) 方向相反的向量 然后将u和v带入: 梯度下降的限制 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 6:17:39- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |