第一章 绪论
第一章主要介绍了机器学习的一些基本的概念,讲到了一些基本术语和相关的发展历程和应用的现状
1.基本术语
- 示例/样本:数据集的每条关于一个事件或者对象的描述
- 属性/特征:反应事件在某方面的表现或性质的事项
- 属性值:属性的取值
- 属性空间/样本空间:属性张成的空间
- 维数:数据集中每个示例由d个属性描述,d称为维数
- 标记:训练样本中的结果
- 样例(example):用药后标记信息的示例
学习任务
-
分类 预测的值是离散的则称该类学习任务为分类
- 二分类:只涉及两个类别的,通常称一个为”正类“,一个为”反类“
- 多分类:涉及多个类别,则称为”二分类任务“
-
回归 预测的值是连续的值,则称该类学习任务为回归
-
聚类:即将训练集分组,每个组称为一个簇的操作 -
监督学习:训练的数据存在标记的信息 -
无监督学习:训练的数据无标记的信息
泛化:我们希望学的的模型能很好的适用于”新样本“,学习的簇划分能适用于没在训练集中的出现的样本的能力就叫泛化能力
独立同分布:设样本空间中全体样本服从一个未知的分布,我们获得的样本都是独立地从这个分布上采样获得的,即独立同分布
2.假设空间
归纳和演绎:前者是从特殊到一般的泛化过程;后者是从一般到特殊的特化过程。
学习的过程可以看成在所有假设组成的空间中进行搜索的过程,搜索的目标是找到与训练集”匹配“的假设
3.归纳偏好
机器学习过程中对某种类型的假设的偏好;偏好可以看作学习算法自身在一个可能很庞大的的假设空间中对假设进行选择的启发式或价值观
-
奥卡姆剃刀(Occam’s razor):若有多个假设与观察的一致,则选最简单的那个 -
没有免费的午餐定理(NFL,No Free Lunch Theorem):在所有问题出现的机会相同时或所有的问题同等重要时,总误差与学习的算法无关
结论:要谈论算法的优劣必须要针对具体的学习问题
4.发展历程
略
5.应用现状
略
第二章 模型的评估与选择
1.经验误差与过拟合
- 错误率:分类错误的样本数占总样本数的比例
- 精度:1-错误率
- 误差:实际预测输出与样本的真实输出的差异
- 过拟合:学习器把训练样本自身的一些特点当作所有潜在的样本都会具有的一般性质,导致泛化性能下降
- 欠拟合:与过拟合相反
2.评估方法
- 留出法:直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个做测试集T,用T来评估其测试误差,作为泛化误差的估计
注:训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的误差。
-
交叉验证法:先将数据集D分成为k个大小相似的互斥子集,每个子集都保持数据分布的一致性,然后用k-1个子集的并集作为训练集,余下的那个子集做测试集。 这样就可以获得k-1个训练/测试集,从而进行kd次训练和测试,最后取测试结果均值
- 交叉验证法又称为k折交叉验证,k常用取值是10,此时称为10折交叉验证
- 若数据集D中包含m个样本,若令k=m,则称为留一法; 缺点是数据集过大时,训练开销过大
-
自助法:以自助采样法为基础,给定一个包含m个样本的数据集D,没次从D中随机抽取一个样本拷贝到D‘中,执行m次。 这样就有有一部分没有被抽到,概率为(1- 1/m)^m,取极限得到0.368
注:初始数据足够多时,留出法和交叉验证法更常用些
3.性能度量
对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量。
|