IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 特征选择1 -> 正文阅读

[人工智能]特征选择1

视频链接

一、监督学习、无监督学习

在这里插入图片描述

二、特征工程

在这里插入图片描述
在这里插入图片描述

三、特征选择

在这里插入图片描述
显然,以上属性中“颜色”这个属性是无关特征,而长宽高就是相关的特征。

为什么进行特征选择呢?
1、冗余。
我们在现实任务中经常会遇到维度灾难问题,这是由于属性过多造成的。假如我们从中选出重要的特征,就可以使得在之后的学习过程中只需要在一部分特征上构建模型,维度的灾难问题就会大幅度减轻。
去除不相关的特征,比如上图的颜色特征,抽丝剥茧,只留下关键的因素。这样我们就更容易看清楚。

2、噪声。
数据集中有些数据不仅对你选择分类模型没有正向的影响,反而可能有负的影响。

特征选择和降维的区别·:
前者是去掉原本特征里和结果预测不大的。
后者做特征的计算组合构成新特征。

举例:
任务:求长方体的体积
特征1:长、宽、高、底面积
特征2:长、宽、高
结果特征集:高、底面积

特征1—>结果特征集属于特征选择,因为只是筛掉了长、宽两个特征。
特征2—>结果特征集属于降维,因为底面积是从长、宽两个特征降维得来的。

特征选择三大类型:

1、过滤型

按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
缺点:没有考虑到特征之间的关联作用,可能把有用的关联特征误剔除掉。

发散性其实就是用方差的方式来选择、过滤特征。
在这里插入图片描述
设置阈值为d,当方差>=d,就保留此特征,<则删除。

相关性,计算相关性的方法很多,如:皮尔逊系数,一些距离系数等。
接下来介绍一种贝叶斯方法来分析特征之间的相关性。
贝叶斯公式:
在这里插入图片描述
在A发生的条件下,Bi发生的概率 =
分子:Bi发生的概率Bi发生的条件下A发生的概率
分母:j从1+到n,Bj发生的概率
Bj发生的条件下A发生的概率

简化思路,去A的路有B1、B2…Bn中方式,
在去到A后,求从B1出发的概率是多少?
在这里插入图片描述
来看一个选好瓜的例子:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
同样,我们取阈值d,当式子>=d时,就把Xi保留下来,否则删除。

例如上图选瓜图中,x3是最好的特征,可以把x1,x2都删除掉。

2、包裹型

把特征选择看做一个特征子集搜索问题,筛选各种特征子集,用模型评估效果。
经典算法:
递归消除特征法:使用一个模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行新一轮的检测。
在这里插入图片描述

搜索策略:
a.前向搜索:初始特征集F为空,加特征,利用评估函数来测定,假如达到了要求,就终止,如果没有达到要求,就继续循环。
b.后向搜索:初始特征集F={x1,x2,x3…xn},删特征
c.随机搜索算法:从初始集{x1,x2,x3…xn}中随机的选若干特征如{x1,x5,x6…xn}

其实我们要做的就是在初始特征集F里面选出字节和S,由于F的维度是n,如果用穷举法算的话,可能需要算2^n-1次,显然搜索次数太多,所以就需要选取响应的搜索策略。

终止条件有四种:
1、比如F有100个特征,筛选够50个就停止。
2、搜索循环的次数超出了给定的阈值,比如100次的时候就停止。
3、评估函数已经达到最高或者最优,停止。
4、评估函数超出预先给定的阈值,比如打分,分数到达80分即可,那我们到达80就停止。因为一直要特征值最高或者最优是可遇不可求的。

模型评估:
1、ROC曲线
2、AUC,AUC是ROC与x轴的面积,AUC越大说明模型越好。

2、嵌入型

根据模型来分析特征的重要性
利用正则化思想,将部分特征属性的权重变为0。(正则化是防止过拟合的)

包裹型算法一直在迭代,所以它的时间复杂度较高,如果有上亿维度的特征,用包裹型就不太现实。
嵌入式在训练的过程中就把不需要的特征权重置为0了,但嵌入式删掉的不一定都是不好的特征,可能两个很好的特征它只保留了一个,但是它可以很好地降维。
嵌入式算法适用于维度很高的情况。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-10 12:23:57  更:2021-11-10 12:26:13 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 6:29:46-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码