IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习-深度学习 -> 正文阅读

[人工智能]机器学习-深度学习

基础知识详见机器学习1,2,3,4,5,6

1、预测的结果好与不好,要看两个因素:bias和variance,如果bias大,variance小,欠拟合;如果bias小,variance大,过拟合;最好结果是bias和variance都小。

2、梯度下降注意三点:

(1)调整学习率

(2)随机的梯度下降

(3)特征缩放

3、优化器

批量梯度下降法(Batch Gradient Descent,简称BGD)是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新。优点:全局最优解;易于并行实现;缺点:当样本数目很多时,训练过程会很慢。

随机梯度下降法(Stochastic Gradient Descent,简称SGD)正是为了解决批量梯度下降法这一弊端而提出的。利用每个样本的损失函数对求偏导得到对应的梯度,随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。优点:训练速度快;缺点:准确度下降,并不是全局最优;不易于并行实现。
原文链接:https://blog.csdn.net/boon_228/article/details/51721835

小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD)的初衷:算法的训练过程比较快,而且也要保证最终参数训练的准确率。SGDM相比SGD优势明显,加入了动量机制,参数更新可以保持之前更新趋势,而不会卡在当前梯度较小的点。美中不足的是,SGDM没有考虑对学习率进行自适应更新,故学习率的选择很关键。

Adagrad自适应梯度下降利用迭代次数和累积梯度,对学习率进行自动衰减,从而使得刚开始迭代时,学习率较大,可以快速收敛。而后来则逐渐减小,精调参数,使得模型可以稳定找到最优点。Adagrad有个致命问题,就是没有考虑迭代衰减。极端情况,如果刚开始的梯度特别大,而后面的比较小,则学习率基本不会变化了,也就谈不上自适应学习率了。这个问题在RMSProp中得到了修正。

RMSProp它与Adagrad基本类似,只是加入了迭代衰减。

Adam是SGDM和RMSProp的结合,它基本解决了之前提到的梯度下降的一系列问题,比如随机小样本、自适应学习率、容易卡在梯度较小点等问题。

AMSGrad对Adam的改进在于,学习率衰减Vt变为了取max,优点为学习率可以随迭代次数单调递减,不会在某些迭代突然变大;去掉了没什么信息含量的梯度,也就是较小的梯度。

五大优化器其实分为两类,SGD、SGDM,和Adagrad、RMSProp、Adam、AMSGrad、AdaBound、Learning rate scheduling、RAdam、Nadam。使用比较多的是SGDMAdam。SGDM在CV里面应用较多,而Adam则基本横扫NLP、RL、GAN、语音合成等领域。所以我们基本按照所属领域来使用就好了。比如NLP领域,Transformer、BERT这些经典模型均使用的Adam,及其变种AdamW。

SWATS结合了SGDM和Adam,刚开始使用Adam,使得模型快速收敛。然后使用SGDM,使模型收敛稳定。

Lookahead参数迭代n步后,再退回来一步。以新的起点重新开始迭代,这样可以增加收敛稳定性,防止跑飞。

optimizer优化主要有四种方法

让模型探索更多的可能,包括dropout、加入Gradient noise、样本shuffle等
让模型站在巨人肩膀上,包括warn-up、curriculum learning、fine-tune等
归一化 normalization,包括batch-norm和layer-norm等
正则化,惩罚模型的复杂度
原文链接:https://blog.csdn.net/u013510838/article/details/108268525

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-27 16:13:42  更:2021-07-27 16:15:54 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 20:30:37-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码