IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> L1正则化的线性模型——套索回归 -> 正文阅读

[人工智能]L1正则化的线性模型——套索回归

1.套索回归的原理:

和岭回归一样,套索回归也会将系数限制在非常接近0的范围内,但是它限制的方式稍微有些不同,我们称之为L1正则化。与L2正则化不同的是,L1正则化会导致在使用套索回归的时候,有一部分特征的系数会正好等于0.也就是说,有一部分特征会彻底被模型忽略掉,这也可以看成是模型对特征进行自动选择的一种方式。把一部分系数变成0有助于让模型更容易理解,而且可以突出体现模型中最重要的那些特征。

2.套索回归实战:

import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
#载入糖尿病情数据集
X,y=load_diabetes().data,load_diabetes().target
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=1)
#导入岭回归
from sklearn.linear_model import Lasso
#使用岭回归对数据进行拟合
lasso=Lasso().fit(X_train,y_train)
print('训练集得分:{}'.format(lasso.score(X_train,y_train)))
print('测试集得分:{}'.format(lasso.score(X_test,y_test)))
print('套索回归使用的特征数量:{}'.format(np.sum(lasso.coef_!=0)))

请添加图片描述
结果分析:
这里我们看到,套索回归在训练数据集和测试数据集的得分都相当糟糕。这意味着我们的模型发生了欠拟合的问题,而且你会发现,在十个特征里,套索回归只用了其中的2个。与岭回归类似,套索回归也有一个正则化参数alpha,用来控制特征变量系数被约束到0的强度。

3.套索回归的参数调节:

在上面的例子里,我们使用了alpha参数的默认值1,为了降低欠拟合的程度,我们可以试着降低alpha的值,与此同时,我们还需要增加最大迭代次数(max——iter)的默认设置。

import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
#载入糖尿病情数据集
X,y=load_diabetes().data,load_diabetes().target
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=1)
#导入岭回归
from sklearn.linear_model import Lasso
#使用岭回归对数据进行拟合
lasso=Lasso(alpha=0.1,max_iter=100000).fit(X_train,y_train)
print('训练集得分:{}'.format(lasso.score(X_train,y_train)))
print('测试集得分:{}'.format(lasso.score(X_test,y_test)))
print('套索回归使用的特征数量:{}'.format(np.sum(lasso.coef_!=0)))

请添加图片描述
结果分析:
从结果上来看,降低alpha值可以拟合出更复杂的模型,从而在训练数据集和测试数据集都难获得良好的表现,相对岭回归,套索回归的表现还要更好一些,而且它只用了10个特征中的7个,这一点也会使模型更容易被人理解。
但是,如果我们把alpha设置的太低,就等于把正则化的效果去处了,那么模型就可能会像线性回归一样,出现过拟合的问题。

4.总结

在实践当中,岭回归往往是这两个模型中的优选。但是如果你的数据特征过多,而且其中只有一小部分是真正重要的,那么套索回归就是更好的选择。同样如果你需要对模型进行解释的话,那么套索回归会让你的模型更容易被人理解,因为它只使用了输入的特征值中的一部分。

ps:sklearn中还提供了一种模型,称为弹性网模型,弹性网模型综合了套索回归和岭回归的惩罚因子。在实践当中,这两个模型的组合是效果最好的,然而代价是用户需要调节两个参数,一个是L1正则化参数,另一个是L2正则化参数。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-10 10:50:39  更:2021-09-10 10:53:27 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 15:28:49-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码