IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> L1和L2正则 -> 正文阅读

[人工智能]L1和L2正则

正则化

L1正则

L1正则化是所有参数的绝对值之和,这就要求所有参数的绝对值之和最小,求导,导数可能为1或-1,而绝对值的取值是大于等于0的,那么就可能导致某些参数在更新的时候趋于0

L2正则

L2正则化是所有参数平方和,导数为 2 w 2w 2w,每个参数更新的量与参数 w w w本身相关, w w w在更新时,会逐渐变慢, w w w逐渐变小趋于0,而不会变为0。

区别

L0和L1的区别:

  • L0范数是指向量中非0的元素的个数,如果我们用L0范数来规则化一个参数矩阵W的话,希望W的大部分元素都是0。
  • L0范数很难优化求解(NP问题)。
  • L1范数是L0范数的最优凸近似,而且它比L0范数更容易优化求解。L1范数和L0范数可以实现稀疏,L1因具有比L0范数更好的优化求解特性而广泛应用。

L1和L2的区别:

  • L1会趋向于产生少量的特征,而其他的特征都为0,L2会选择更多的特征,这些特征都趋于0。
  • 使用L1可以得到稀疏的权值,用L2可以得到平滑的权值

为什么

更小的权值 w w w,表示网络的复杂度更低,对数据的拟合刚刚好(奥卡姆剃刀法则)。设想一个线性回归模型,如果参数很大,只要数据偏移一点点,就会对结果产生很大的影响;但如果参数足够小,数据偏移的多一点不会对结果造成什么影响,也就是抗扰动能力强。
过拟合的时候,拟合函数的系数往往非常大,因为拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈,这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量可大可小,所以只有系数足够大,导数值才能很大。

权值衰减

L2正则又被称为权值衰减
当loss不包含正则项是:
O b j = L o s s w i + 1 = w i ? ? o b j ? w i = w i ? ? L o s s ? w i Obj=Loss\\ w_{i+1}=w_i-\frac{\partial_{obj}}{\partial_{w_i}}=w_i-\frac{\partial_{Loss}}{\partial_{w_i}} Obj=Losswi+1?=wi???wi???obj??=wi???wi???Loss??
当使用L2正则时:
O b j = L o s s + λ 2 ? ∑ i N w i 2 w i + 1 = w i ? ? o b j ? w i = w i ? ( ? L o s s ? w i + λ ? w i ) = w i ( 1 ? λ ) ? ? L o s s ? w i Obj=Loss+\frac{\lambda}{2}*\sum_i^Nw_i^2\\ w_{i+1}=w_i-\frac{\partial_{obj}}{\partial_{w_i}}=w_i-(\frac{\partial_{Loss}}{\partial_{w_i}}+\lambda*w_i)=w_i(1-\lambda)-\frac{\partial_{Loss}}{\partial_{w_i}} Obj=Loss+2λ??iN?wi2?wi+1?=wi???wi???obj??=wi??(?wi???Loss??+λ?wi?)=wi?(1?λ)??wi???Loss??

其中, 0 < λ < 1 0<\lambda<1 0<λ<1,所以具有权值衰减的作用。
在 PyTorch 中,L2 正则项是在优化器中实现的,在构造优化器时可以传入 weight decay 参数,对应的是公式中的 λ \lambda λ

深度学习如何防止过拟合
weight decay 和 dropout

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-29 11:38:10  更:2021-07-29 11:38:36 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 10:59:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码