系列文章目录
前言
该系列文章主要用于记录笔者在大三下学期的西瓜书学习过程 本文讨论西瓜书绪言中的学习体会以及对某些问题的思考
一、知识回顾
在经过预习、上课、以及复习之后,绪言这一章节可以说是极其友好的入门手册,在本章中西瓜书作者对机器学习中的一些常用术语进行了系统的介绍,例如样本、标记、样例、训练集、测试集等,并用西瓜为例进行了简单的论述,由于这些概念理解起来没有难度,笔者就不作赘述,下面主要针对书中的假设空间(hypothesis space)这一概念做出一些解释和说明。
假设(hypothsis),这一概念在书中的第二页第四段中出现,书中的定义为:
“学得模型对应了关于数据的某种潜在的规律,因此亦称假设”
而假设空间(hypothesis space)即包含了所有假设的空间,而学习过程就可以看作在假设空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设(P5)。此外,在真实的学习过程中,还可能出现多个与训练集匹配的假设,这些假设组成的集合就是“版本空间”(version space)。
从上面的总结,笔者认为“假设”这一抽象的概念,其实就是学习前预测可能出现的模型情况,而版本空间所包含的假设,就是假设中的特例,是实际可以应用的模型,而模型的选择,则要根据偏好进行进一步区分。
以上是广义的说明假设,那么狭义来看,以西瓜书中的西瓜为例,若样本空间中共有四个样本,具体如下所示(P4 表1.1)
编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响 是
2 乌黑 蜷缩 浊响 是
3 青绿 硬挺 清脆 否
4 乌黑 稍蜷 沉闷 否
每个样本的特征向量维度 d = 3 ,每个特征有三种不同的取值,根据这些就可以计算出假设空间的规模
4 * 4 * 4 = 64
这里不考虑空集,每个特征考虑通配符“*”
假设空间中每个假设就可以表示为:
(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 清脆)
由上也可以总结到,假设空间的规模关联的属性是特征维度与特征的种类,与样本空间规模无关。
笔者在这里犯过错,将假设空间和样本空间的预测集合概念混肴,
所以在此记录,用于警示自己
二、课后习题思考
对于课后习题,课堂上老师为我们布置了1.1与1.3,1.1很简单,就不做赘述,关于1.3则引发了我的一些思考
1.3
题目如下:
若数据包含噪声,
则假设空间中有可能不存在与所有训练样本都一致的假设。
在此情形下,试设计一种归纳偏好用于假设选择
笔者搜索了线上的一些已有答案,大致如下:
答:在训练过程中选择满足最多样本的假设。也可以对每个假设,求得其准确率。准确率=(符合假设的条件且为好瓜的样例数量)/(符合假设的条件的样例数量)。选择准确率最高的假设。
另一解答:通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。
笔者认为,该题目中有两个重点:
- 含有噪声
- 可能不存在与所有训练样本一样的假设
首先针对第一点,在假设选择时,要对数据进行清洗,即需要进行异常点检测,并对异常点进行修正补全,这样才能
针对第二点,可以进行一下概念上的转换: 不存在与训练样本一样的假设 <=> 版本空间为空集
所以在经过噪声处理后,如果版本空间不为空,则遵循奥卡姆剃刀原则进行假设选择,如果依旧为空,则选择匹配训练样本规模最大的假设。
总结
以上就是笔者对绪言的一些心得,如有错误,烦请各位读者不吝赐教,感谢阅读。
2022.3.2
|