第一章:统计学习方法概论
1.1统计学习
标题机器学习分类
监督学习、无监督学习、半监督学习和强化学习
监督学习的步骤:
(1)训练数据集合; (2)确定模型的假设空间,也就是备选模型; (3)确定模型,选择准则,即学习策略; (4)实现求解最优模型的算法; (5)通过学习方法选择最优模型; (6)利用学习的最优模型对新数据进行预测或分析。
1.2监督学习
基本概念
(1)训练集为: (2)x的特征向量:
模型
(1)决策函数:
预测形式如下:
(2)条件概率分布:
预测形式如下:
1.3统计学习三要素
模型(假设空间)
是所有模型、决策的集合 决策函数如下: 条件概率分布:
策略
1、损失函数分类 (1)0-1损失函数: (2)平方损失函数 (3)绝对损失函数 (4)对数损失函数 2、 风险函数分类 (1)经验风险最小化 经验风险是模型关于训练样本集的平均损失 (2)结构风险最小化 在经验风险最小化的基础上加了一个正则项,为了防止过拟合
算法:
选择一个合适的算法,使得可以求解最优模型
1.4模型评估与模型选择
首先要划分训练集和测试集,测试集只用来测试,不用来训练 训练误差 测试误差 一般来说都是在测试集上来检验模型的效果。在测试集上选择一个最佳的参数,然后在验证集上验证效果 过拟合与模型选择 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。这样也就会使得参数值相对较小,对于一个噪声阿狸说,其变动也不会太大,增加了模型的鲁棒性。
1.5 交叉验证
简答交叉验证 将数据算计分成两部分,一部分作为训练集,另一部分作为测试集,在训练集上训练,在测试集上评价测试误差,选出误差最小的模型 S折交叉验证 将已给数据企切分成S个互不相交的大小相同的自己,然后利用S-1个子集来训练模型,利用余下的子集来测试模型,对可能的S中选择重复进行,最后选出S次测评中平均测试误差最小的模型。
1.7生成模型与判别模型
生成模型 判别模型
直接学习决策函数f(X)或者是条件概率分布P(Y|X)作为预测的模型
1.8分类问题
精确率、召回率和1F值根据纸质版笔记来记忆
1.9标注问题
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。
1.10回归问题
按照输入变量的个数,分为一元回归和多元回归;也可以按照输入变量和输出变量之间的关系分为线性回归和非线性回归。 回归学习最常用的损失函数是平方损失函数,由著名的最小二乘法来求解。
|