IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 特征选择-机器学习 -> 正文阅读

[人工智能]特征选择-机器学习

基本概念

特征选择和提取的目的
经过选择或变换,组成识别特征,尽可能保留分类信息,在保证一定分类精度的前提下,减少特征维数,使分类器的工作既快又准。

基本任务:如何从许多特征中找出那些最有效的特征。

特征的类别:物理的、结构的、数学的三类。
物理和结构特征:容易被人类感知器官发现,但是在使用计算机去构造识别系统时应用这些特征比较复杂。
数学特征计算机在抽取数学特征方面比人强得多,所以在使用计算机来构造自动识别系统时通常采用数学特征。

特征形成:根据被识别的对象产生出一组基本特征,它可以是由计算得到的,也可以是用仪表或传感器测量出来的,这样产生出来的特征称为原始特征。在大多数情况下,不能直接对原始特征进行分类器设计。

对特征的要求
(1) 具有很大的识别信息量。即应具有很好的可分性。
(2) 具有可靠性。模棱两可、似是而非、时是时非等不易判别的特征应丢掉。
(3) 尽可能强的独立性。重复的、相关性强的特征只选一个。
(4) 数量尽量少,同时损失的信息尽量小。

特征选择和特征提取的异同
共同点:都是要达到特征降维的目的
不同点:
特征提取: 特征变换组合原始高维特征,得低维新特征;
特征选择:根据专家知识或评价准则来挑选出那些对分类最有影响力的特征,并未形成新的特征

特征提取与选择的目标
通常在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,这就是特征提取与选择的任务。从本质上讲,我们的目的是使在最小维数特征空间中异类模式点相距较远(类间距离较大),而同类模式点相距较近(类内距离较小)。

本章主要关注特征选择的问题。

特征选择

特征:描述物体的属性
特征的分类
(1)相关特征: 对当前学习任务有用的属性
(2)无关特征: 与当前学习任务无关的属性
(3)冗余特征: 其所包含信息能由其他特征推演出来
在这里插入图片描述
特征选择:
(1)从给定的特征集合中选出任务相关特征子集
(2) 必须确保不丢失重要特征
原因:
(1)减轻维度灾难:在少量属性上构建模型
(2) 降低学习难度:留下关键信息

如何进行特征选择

在这里插入图片描述

子集搜索

用贪心策略选择包含重要信息的特征子集
子集搜索策略:
前向搜索:最优子集初始为空,逐渐增加相关特征
后向搜索:从完整的特征集合开始,逐渐减少特征
双向搜索:每一轮逐渐增加相关特征, 同时减少无关特征

前向搜索

在这里插入图片描述
在这里插入图片描述

后向搜索

在这里插入图片描述

双向搜索

在这里插入图片描述

子集评价

特征子集 A 确定了对数据集 D 的一个划分。
通过估算这两个划分的差异,就能对特征子集进行评价;与样本标记对应的划分的差异越小,则说明当前特征子集越好。
如何评价?
在这里插入图片描述

基于评价准则划分特征选择方法

将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法,常见的特征选择方法大致分为如下三类:
(1)过滤式
(2)包裹式
(3)嵌入式

过滤式选择

(1)先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关
(2)先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型
(3) 代表性算法 Relief (Relevant Features) 方法 [Kira and Rendell, 1992]
在这里插入图片描述
Relief算法是一种特征权重算法。
(1) 根据各个特征和类别的相关性赋予特征不同的权重(相关统计量)。
(2)设定一个阈值,权重小于某个阈值的特征将被移除。
(3)算法中特征和类别的相关性是基于特征对近距离样本的区分能力。

Relief的关键是如何确定权重(相关统计量)?
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

包裹式选择

思路:直接把最终将要使用的学习器的性能作为特征子集的评价准则
(1)包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集
(2)特点:包裹式选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看, 包裹式特征选择比过滤式特征选择更好。
(3)复杂度:包裹式特征选择过程中需多次训练学习器,计算开销通常比过滤式特征选择大得多
(4)代表性算法:LVW(Las Vegas Wrapper)是一个典型的包裹式特征选择方法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

嵌入式选择

将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-04 13:26:12  更:2022-01-04 13:28:47 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 22:41:13-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码