监督学习
第1章 统计学习及监督学习概论
1.2 统计学习的分类
监督学习的实现步骤:
- 得到一个有限的训练集合
- 确定模型的假设空间,即所有的备选模型
- 确定模型选择的标准,即学习的策略
- 实现求解最优模型的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
训练集: 实例特征向量: 联合概率分布:
- 假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)
- P(X,Y)为分布函数或分布密度函数
- 对于学习系统来说,联合概率分布是未知的
- 训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。
假设空间:
- 监督学习目的是学习一个由输入到输出的映射,称为模型
- 模式的集合就是假设空间
- 概率模型:条件概率分布P(Y|X), 决策函数:Y=f(X)
1.3 统计学习方法三要素
统计学习三要素:方法=模型+策略+算法
模型:
- 决策函数的集合:
- 参数空间:
- 条件概率的集合:
- 参数空间:
策略:
算法:
- 算法是指学习模型的具体计算方法,统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。如果最优化问题有显式的解析式,算法比较简单,但通常解析式不存在,就需要数值计算的方法
1.4 模型评估与模型选择
假设给定训练数据集 选用模型 按经验风险最小原则设计模型 这种情况下容易发生过拟合现象, 显而易见,M=9最符合经验风险最小原则,然而M=3模型拟合效果最好。
一般情况下,模型负责度与测试误差关系如下图:模型复杂度小,训练误差和测试误差都较大;随着模型复杂度曾增大,训练误差和训练误差均下降;模型复杂度继续增大超过一定阈值,训练误差继续下降,测试误差反而上升
1.5 正则化和交叉验证
模型选择的典型方法是正则化,正则化是结构风险最小化策略的实现,在经验风险上加一个正则化项/罚项。正则化一般形式: 其中第一项是经验风险,第二项是正则化项,λ≥0为调整两者之间关系的系数。正则化的作用是选择经验风险与模型复杂度同时较小的模型。正则化符合奥卡姆剃刀原理:在所有可能的选择模型中,能够很好地解释已知数据并且十分简单的才是最好的模型。 样本数据充足的情况进行模型,选择的方法是随机地将数据集切分成三部分:训练集、验证集和测试集。数据不充足的情况下,为了选择好的模型,可以采用交叉验证法,基本思想是重复的使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复的进行训练、测试、模型选择。
- 简单交叉验证:随机的将已给数据分为训练集和测试集,然后在各种条件下训练模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型
- S折交叉验证(最常用):随机的将已给数据区分为S个互不相交,大小相同的子集。然后利用S-1个子集的数据训练模型,利用余下的子集测试模型,将这一过程可能的S种选择重复进行,最后选出S次评测中平均测试误差最小的模型
- 留一交叉验证:S折交叉验证的特殊情况,S=数据集容量,数据缺乏情况下适用
1.6 泛化能力
由该方法学习到的模型,对未知数据的预测能力。 泛化误差: 对未知数据预测的误差: 泛化误差上界: 通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。泛化误差上界是样本容量的函数,当样本容量增加,时泛化上界趋近于0;它是假设空间容量的函数,假设空间容量越大模型就越难学泛化,误差上界就越大 泛化误差上界定理(二分类问题): 当假设空间是有限个函数的集合 对任意一个函数f, 至少以概率1-δ,以下不等式成立: 其中, 物理含义:第1项是训练误差,训练误差越小,泛化误差越小;第2项是N的单调递减函数,N→无穷,值趋于0;同时他也是d的单调递增函数,假设空间F包含的函数越多,值越大
1.7 生成模型与判别模型
生成模型:由数据学习联合概率分布,然后求出条件概率分布作为预测的模型: 判别模型:由数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型
1.8 监督学习应用
三个方面:分类问题、标注问题、回归问题 分类问题:
- 输出变量Y取有限个离散值,预测问题成为分类问题
- 评价指标:分类准确率,分类器正确分类样本数与总样本数之比
- 二分类评价指标:精确率,召回率。TP,正类预测为正类数;FN,正类预测为负类数;FP,负类预测为正类数;TN,负类预测为负类数。
- 精确率:
- 召回率:
- F1值:
标注问题:分类问题的一个推广,输入为一个观测序列,输出为一个标记序列活状态序列。评价指标与分类模型相同
回归问题:
- 用于预测输入变量和输出变量之间的关系,等价于函数拟合。
- 按照输入变量的个数,分为一元回归和多元回归
- 按照输入变量和输出变量之间关系的类型,分为线性回归和非线性回归
- 评价指标:平方损失函数
第2章 感知机
感知机是二分类的线性分类模型,输入为实例的特征向量,输出为实例类别,+1和-1,属于判别模型。旨在求出将训练数据进行线行划分的分离超平面。导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式
2.1 感知机模型
假设输入空间(特征空间):
输出空间: 由输入空间到输出空间的函数: 其中符号函数: 其几何解释,存在特征空间Rn中的一个超平面S,它的线性方程: w为法向量,b截距,它将特征向量分为正、负两类。S称为分离超平面。
2.2 感知机学习策略
损失函数为误分类点到超平面的总距离。 输入空间Rn中任意一点x0到超平面S的距离: 误分类点到超平面的距离: 总距离: 感知机损失函数: 其中M为误分类点的数目
2.3 感知机学习算法
感知机学习算法是求损失函数极小化问题的解: 优化方式为随机梯度下降法,首先任意选择一个超平面w0,b0,然后不断极小化目标函数。极小化过程不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点,使其梯度下降。 梯度: 随机选取一个误分类点(xi,yi),对w,b进行更新: η称为学习率,通过迭代可以期待损失函数不断减小直到为0 感知机学习算法的原始形式: 当一个实例点被误分类,即位于分离超平面的错误一侧时,则调整w,b的值,使分离超平面向该误分类点的一侧移动,以减少该误分类点与超平面间的距离,直至超平面越过该误分类点使其被正确分类。
算法的收敛性:证明经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。 定理表明,误分类的次数k是有上界的,经过有限次搜索可以找到将训练数据完全正确分开的分离超平面。也就是说,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的。
感知机学习算法的对偶形式: 与原始形式一样,感知机学习算法的对偶形式迭代是收敛的,存在多个解。
第3章 k近邻法
第4章 朴素贝叶斯法
第5章 决策树
第6章 逻辑斯地回归与最大熵模型
第7章 支持向量机
第8章 提升方法
第9章 EM算法及其推广
第10章 隐马尔可夫模型
第11章 条件随机场
|