IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 用神经网络进行回归预测 weight_decay为异常值(大于1 的值)模型效果好的原因解析 -> 正文阅读

[人工智能]用神经网络进行回归预测 weight_decay为异常值(大于1 的值)模型效果好的原因解析

weight_decay越大越好的原因

研究发生的问题特此记录

之前在用神经网络来做一个回归问题,回归的数值范围是0~1之间。然后进行网格搜参(搜索最好的weight_decay和学习率)的时候发现一个不合常理的现象,就是一般往往最好的weight_decay 一般是很小的一个数值(0.001或者0.0001),但是我的最优weight_decay反而很大,这就给我造成很大的困扰,还好经过一番探索,最终锁定了问题,下面我将一一道来

现象

发现weight_decay 取得一个比较大的值的时候 模型效果最好

请添加图片描述

分析

这显然是不合理的 weight _decay 往往是小于1, 一般取10^-3 这种数量级 没道理这么大,而且最好的结果出现在这里显然是不合常理的

原因

首先weight _decay本质上是一个L2正则化系数

请添加图片描述

可以理解为加上这个L2正则化,会限制模型的权重都会趋近于0(理解就是当w趋近与0时, w平方和 会小, 模型损失也会变小),而weight_decay的大小就是公式中的λ,可以理解为λ越大,优化器就越限制权重变得趋近与0

这里重点注意

由于我模型最后输出的是一个0~1的结果,而神经网络的最后一次输出是一个 权重之和,这就要求我们得到的权重必然是要比较小的才能符合输出结果

img

也就是图中的w1 w2 w3 w4 要趋近于0, 这样加权值才会比较小

实验分析

经过上面的原理分析, 于是我做了下面两组实验

当weight_decay 设置为1时, 模型的参数迭代如下

请添加图片描述

当weight_decay 设置为0.001时, 模型的参数迭代如下

请添加图片描述

可以明显看出 weight_decay 越大, 模型权重则会在训练地越小,这说明在我们模型中确实需要设置这么大的weight_decay

但是我查看发现竟然需要是的权重变成10^-4 次方,是不是有点过于小了, 我通过全连接层计算,理论上也就是只有1500个权重和,乘上10的-4次方的权重 范围反而应该小于0.15。而且其他这样做也没有出现这么大的weight_decay。

经过查找。我最终发现了原因,原因是在真实值输入的时候,为了使得loss更大一点,我将每个真实值都放大100倍,也就是说输出的范围是0~100, 这就更加加重了我模型需要学习到更趋近于0的权重, 也可以和我前面分析出权重为什么过于小对于上来, 问题解决!

请添加图片描述

总结

最终问题是解决了 ,将模型放缩100取消后,weight_decay也成为了一个正常值

请添加图片描述

教训是

  • 瞎改改输出格式

  • 从公式根源出发 寻找问题

  • 学会打印模型参数来查问题

  • 神经网络不好做回归, 使得权重很小

  • 或许多加几层 由于层数的增加使得输出变小,可能会缓解这种问题

其实也是一种启发: 神经网络做回归,需要考虑权重问题,不能像做传统分类问题一样,因为传统分类会经过sigmoid函数来进行概率变换,

Sigmoid 曲线

就算很大或者很小的输出值, 也会被合理的放缩到0~1之间,不用考虑权重值过大或过小的问题

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-16 22:21:38  更:2022-03-16 22:23:31 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 14:38:06-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码