基本概念
特征选择和提取的目的: 经过选择或变换,组成识别特征,尽可能保留分类信息,在保证一定分类精度的前提下,减少特征维数,使分类器的工作既快又准。
基本任务:如何从许多特征中找出那些最有效的特征。
特征的类别:物理的、结构的、数学的三类。 物理和结构特征:容易被人类感知器官发现,但是在使用计算机去构造识别系统时应用这些特征比较复杂。 数学特征:计算机在抽取数学特征方面比人强得多,所以在使用计算机来构造自动识别系统时通常采用数学特征。
特征形成:根据被识别的对象产生出一组基本特征,它可以是由计算得到的,也可以是用仪表或传感器测量出来的,这样产生出来的特征称为原始特征。在大多数情况下,不能直接对原始特征进行分类器设计。
对特征的要求 (1) 具有很大的识别信息量。即应具有很好的可分性。 (2) 具有可靠性。模棱两可、似是而非、时是时非等不易判别的特征应丢掉。 (3) 尽可能强的独立性。重复的、相关性强的特征只选一个。 (4) 数量尽量少,同时损失的信息尽量小。
特征选择和特征提取的异同 共同点:都是要达到特征降维的目的 不同点: 特征提取: 特征变换组合原始高维特征,得低维新特征; 特征选择:根据专家知识或评价准则来挑选出那些对分类最有影响力的特征,并未形成新的特征。
特征提取与选择的目标 通常在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,这就是特征提取与选择的任务。从本质上讲,我们的目的是使在最小维数特征空间中异类模式点相距较远(类间距离较大),而同类模式点相距较近(类内距离较小)。
本章主要关注特征选择的问题。
特征选择
特征:描述物体的属性 特征的分类 (1)相关特征: 对当前学习任务有用的属性 (2)无关特征: 与当前学习任务无关的属性 (3)冗余特征: 其所包含信息能由其他特征推演出来 特征选择: (1)从给定的特征集合中选出任务相关特征子集 (2) 必须确保不丢失重要特征 原因: (1)减轻维度灾难:在少量属性上构建模型 (2) 降低学习难度:留下关键信息
如何进行特征选择
子集搜索
用贪心策略选择包含重要信息的特征子集 子集搜索策略: 前向搜索:最优子集初始为空,逐渐增加相关特征 后向搜索:从完整的特征集合开始,逐渐减少特征 双向搜索:每一轮逐渐增加相关特征, 同时减少无关特征
前向搜索
后向搜索
双向搜索
子集评价
特征子集 A 确定了对数据集 D 的一个划分。 通过估算这两个划分的差异,就能对特征子集进行评价;与样本标记对应的划分的差异越小,则说明当前特征子集越好。 如何评价?
基于评价准则划分特征选择方法
将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法,常见的特征选择方法大致分为如下三类: (1)过滤式 (2)包裹式 (3)嵌入式
过滤式选择
(1)先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关 (2)先用特征选择过程过滤原始数据,再用过滤后的特征来训练模型 (3) 代表性算法 Relief (Relevant Features) 方法 [Kira and Rendell, 1992] Relief算法是一种特征权重算法。 (1) 根据各个特征和类别的相关性赋予特征不同的权重(相关统计量)。 (2)设定一个阈值,权重小于某个阈值的特征将被移除。 (3)算法中特征和类别的相关性是基于特征对近距离样本的区分能力。
Relief的关键是如何确定权重(相关统计量)?
包裹式选择
思路:直接把最终将要使用的学习器的性能作为特征子集的评价准则。 (1)包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集 (2)特点:包裹式选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看, 包裹式特征选择比过滤式特征选择更好。 (3)复杂度:包裹式特征选择过程中需多次训练学习器,计算开销通常比过滤式特征选择大得多 (4)代表性算法:LVW(Las Vegas Wrapper)是一个典型的包裹式特征选择方法。
嵌入式选择
将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
|