西瓜书笔记：（1）第一章

文章目录

西瓜书笔记：（1）第一章

简述

开始一种新的学习方式，顺便帮助总结，方便之后的回顾，以及也起到一个监督自己打卡的作用。

1.2 基本术语

数据集（data set）：记录的数据集合，其中的每一条记录成为 示例（instance）或者样本(sample)

特征（feature）\ 属性（attribute）:反映事件或对象在某方面的表现和性质的事项，例如“色泽”、“根蒂”、“敲声”称为属性（attribute),或者特征（feature）。其取值为属性值（attribute value）

属性空间（attribute space）\样本空间(sample space): 属性构成的空间称为 属性空间（attribute space）、样本空间(sample space),或者输入空间。

特征向量(feature vector): 由于空间中的每一个点对应一个坐标向量，因此我们将一个示例称为一个 “特征向量(feature vector)”

分类与回归

若预测的是离散值，此类学习任务称为**“分类问题”（classification）**
若欲预测的是连续值，例如输出0.95、0.35此类学习任务称为**“回归（regression）”**

聚类(clustering)

聚类一般属于无监督学习，即

学习过程中使用的训练样本通常不拥有标记信息

根据训练数据是否拥有标记信息，学习任务大致分为两大类，监督学习(supervised learning) 和 无监督学习(unsupervised learning)。

泛化：指模型适用于新样本的能力。具有强泛华能力的模型能很好的适用于整个样本空间。

独立同分布：通常假设样本空间中全体样本服从一个未知“分布”（distribution）D,我们获得每个样本都是独立地从这个分布上采样获得的，即**“独立同分布 ( independent and identically distributed ，简称 i.i.d. )”**

独立同分布 independent and identically distributed – 知乎

一般来说训练样本越多，得到的关于D的信息越多，就越有可能通过学习获得强泛华能力的模型。

独立同分布理解

独立同分布（independent and identically distributed，i.i.d.）在概率统计理论中，指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布。

示例——抛骰子

独立

每次抽样之间是没有关系的，不会相互影响。

就像抛骰子每次抛到几就是几这就是独立的，但如果要两次抛的和大于8，其余的不算，那么第一次抛和第二次抛就不独立了，因为第二次抛的时候结果是和第一次相关的。

同分布

每次抽样，样本都服从同样的一个分布。

抛骰子每次得到任意点数的概率都是1/6，这就是同分布的。但如果第一次抛一个6面的色子，第二次抛一个正12面体的色子，就不再是同分布了。

为什么需要满足i.i.d.假设？

机器学习是利用当前获取到的信息（或数据）进行训练学习，用以对未来的数据进行预测、模拟。所以都是建立在历史数据之上，采用模型去拟合未来的数据。因此需要我们使用的历史数据具有总体的代表性。

为什么要有总体代表性？我们要从已有的数据（经验）中总结出规律来对未知数据做决策，如果获取训练数据是不具有总体代表性的，就是特例的情况，那规律就会总结得不好或是错误，因为这些规律是由个例推算的，不具有推广的效果。

通过i.i.d.假设，就可以大大减小训练样本中个例的情形。

扩展

机器学习并不总是要求数据同分布。在不少问题中要求样本（数据）采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集，使用同分布假设能够使得这个做法解释得通。

由于现在的机器学习方向的内容已经变得比较广，存在不少机器学习问题并不要求样本同分布，比如一些发表在机器学习方向上的online算法就对数据分布没啥要求，关心的性质也非泛化性。

1.3 假设空间

归纳学习与概念学习

“现在常用的技术大多是产生“黑箱”模型。”

我们可以把学习过程看作一个在所有假设( hypothesis ) 组成的空间中进行搜索的过程，搜索的目标是找到与训练集“匹配”（fit）的假设，即能够将训练集中的瓜判断正确的假设。

这里对于假设空间的描述，初看没看明白，导致我在后面的阅读中造成了困，但细想后发现我听过的李宏毅老师的课中对于假设空间有类似的描述。其实假设空间即：所有可能的模型的集合，其中正确的模型就在这个集合中，我们的学习过程实际上即在这个集合中进行收缩，找到最正确的集合，在这个过程中，我们借助某些算法，越来越靠近这个最正确的模型。

对书中的西瓜问题进行分析：
在这里插入图片描述

西瓜问题中，加入通配符“ * ” ，表示什么色泽，或者什么根蒂、敲声都可以，那么三个特征feature的输入分别有4、3、3种可能的取值，加上可能不存在根据色泽、根蒂、敲声判断好瓜这一假设，那么这个西瓜问题的假设空间大小规模为 4 x 3 x 3 + 1 = 37。
若我的叙述不够清晰明确，可以看一下这篇解读：如何理解假设空间与版本空间

原文中，“即能够将训练集中的瓜判断正确的假设。” ,在机器学习中，即保证在训练集中的损失函数达到最小，但是在这个过程中，会存在出现过拟合的问题。放在原文中的西瓜的例子上，即对于我们见过的（训练集中的）西瓜我们都能预测正确它是好瓜还是坏瓜，但对于我们没见过的瓜，我们却大多或者总是得到错误的结论。