基本概念

特征选择和提取的目的：
经过选择或变换，组成识别特征，尽可能保留分类信息，在保证一定分类精度的前提下，减少特征维数，使分类器的工作既快又准。

基本任务：如何从许多特征中找出那些最有效的特征。

特征的类别：物理的、结构的、数学的三类。
物理和结构特征：容易被人类感知器官发现，但是在使用计算机去构造识别系统时应用这些特征比较复杂。
数学特征：计算机在抽取数学特征方面比人强得多，所以在使用计算机来构造自动识别系统时通常采用数学特征。

特征形成：根据被识别的对象产生出一组基本特征，它可以是由计算得到的，也可以是用仪表或传感器测量出来的，这样产生出来的特征称为原始特征。在大多数情况下，不能直接对原始特征进行分类器设计。

对特征的要求
(1) 具有很大的识别信息量。即应具有很好的可分性。
(2) 具有可靠性。模棱两可、似是而非、时是时非等不易判别的特征应丢掉。
(3) 尽可能强的独立性。重复的、相关性强的特征只选一个。
(4) 数量尽量少，同时损失的信息尽量小。

特征选择和特征提取的异同
共同点：都是要达到特征降维的目的
不同点：
特征提取： 特征变换组合原始高维特征，得低维新特征；
特征选择：根据专家知识或评价准则来挑选出那些对分类最有影响力的特征，并未形成新的特征。

特征提取与选择的目标
通常在得到实际对象的若干具体特征之后，再由这些原始特征产生出对分类识别最有效、数目最少的特征，这就是特征提取与选择的任务。从本质上讲，我们的目的是使在最小维数特征空间中异类模式点相距较远（类间距离较大），而同类模式点相距较近（类内距离较小）。

本章主要关注特征选择的问题。

特征选择

特征：描述物体的属性
特征的分类
（1）相关特征: 对当前学习任务有用的属性
（2）无关特征: 与当前学习任务无关的属性
（3）冗余特征: 其所包含信息能由其他特征推演出来
在这里插入图片描述
特征选择：
（1）从给定的特征集合中选出任务相关特征子集
（2）必须确保不丢失重要特征
原因：
（1）减轻维度灾难：在少量属性上构建模型
（2）降低学习难度：留下关键信息

如何进行特征选择

在这里插入图片描述

子集搜索

用贪心策略选择包含重要信息的特征子集
子集搜索策略：
前向搜索：最优子集初始为空，逐渐增加相关特征
后向搜索：从完整的特征集合开始，逐渐减少特征
双向搜索：每一轮逐渐增加相关特征，同时减少无关特征

前向搜索

在这里插入图片描述

后向搜索

在这里插入图片描述

双向搜索

在这里插入图片描述

子集评价

特征子集 A 确定了对数据集 D 的一个划分。
通过估算这两个划分的差异，就能对特征子集进行评价；与样本标记对应的划分的差异越小，则说明当前特征子集越好。
如何评价？
在这里插入图片描述

基于评价准则划分特征选择方法

将特征子集搜索机制与子集评价机制相结合，即可得到特征选择方法，常见的特征选择方法大致分为如下三类：
（1）过滤式
（2）包裹式
（3）嵌入式

过滤式选择

（1）先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关
（2）先用特征选择过程过滤原始数据，再用过滤后的特征来训练模型
（3）代表性算法 Relief (Relevant Features) 方法 [Kira and Rendell, 1992]
在这里插入图片描述
Relief算法是一种特征权重算法。
（1）根据各个特征和类别的相关性赋予特征不同的权重（相关统计量）。
（2）设定一个阈值，权重小于某个阈值的特征将被移除。
（3）算法中特征和类别的相关性是基于特征对近距离样本的区分能力。

Relief的关键是如何确定权重（相关统计量）？
在这里插入图片描述

包裹式选择

思路：直接把最终将要使用的学习器的性能作为特征子集的评价准则。
（1）包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集
（2）特点：包裹式选择方法直接针对给定学习器进行优化，因此从最终学习器性能来看，包裹式特征选择比过滤式特征选择更好。
（3）复杂度：包裹式特征选择过程中需多次训练学习器，计算开销通常比过滤式特征选择大得多
（4）代表性算法：LVW（Las Vegas Wrapper）是一个典型的包裹式特征选择方法。
在这里插入图片描述