第一章

基本术语

一条数据（色泽=青绿；根蒂=蜷缩；敲声=浊响）
数据集（data set）：一组记录的集合称为一个数据集。
示例（instance）/样本（sample）：在一个数据集中，其中的每条记录都是对一个事件或者对象的描述，称为示例（instance）或样本（sample）
注意：数据集有时也称作样本，因为它也是样本空间的一个采样。需要结合上下文判断
属性（attrribute）/特征（feature）：反映事件或对象在某方面的表现或性质的事情。如“色泽”
属性值（attribute value）：属性上的取值，书中例子为“青绿” “乌黑” 。
属性空间（attribute space）/样本空间（sample space）/输入空间：属性张成的空间，例如我们把"色泽" “根蒂” “敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个 “特征向量” (feature vector).
学习（learning）/训练（training）：从数据中学得模型的过程。训练过程中使用的数据称为"训练数据” (training data)，其中每个样本称为一个训练样本" (training sample), 训练样本组成的集合称为"训练集" (training set)。
学得模型对应了关于数据的某种潜在的规律，因此模型也称为假设（hypothesis）。
这种潜在规律自身，则称为"真相"或"真实" (ground-truth)，学习过程就是为了找出或逼近真相。
本书有时也将模型称为“学习器”（learner）
标记：关于示例结果的信息，例如“好瓜”，称为标记
示例：拥有了标记信息的示例，则称为样例
标记空间/输出空间：就是所有标记的集合，

分类：预测的结果是离散值
回归：预测的结果是连续值

假设空间

假设空间的分析，转自https://www.lilinchao.com/archives/909.html

假设空间的表示：
假设空间的表示形式为“（色泽=？）∧(根蒂=？)∧（敲声=？）”。
表示形式确定了，假设空间的规模大小就确定了
规模大小的计算：
以书中的例子，我们知道对好瓜的判断由色泽，根蒂，敲声来确定。每个属性的属性值都有三种可能，另外，对于每个属性，如“色泽”，也许取什么值都合适，即通配符“”。因此每个属性有四种取法。
因而可得假设空间大小为 44*4 + 1 =65
版本空间：对于一个数据集，可能是存在着多个假设都与训练集一致，这多个假设组成的集合就称为“版本空间”

第二章模型评估与选择

处理数据集的方法

机器学习中的模型选择:1.选择哪种学习算法2.选择哪种参数配置
我们只有一个包含m个样例的数据集D，需要进行处理得到训练集S和测试集T。
法1留出法
思想：将D划分成两个互斥的子集，一个作S，一个作T
注意：该方法，需采用若干次随机划分，每次划分进行评估，结果取所有结果的平均值
划分时一般，2/3-4/5用作训练
法2交叉验证法（k折交叉验证）
思想：将D划分为k个大小相近的互斥子集。使用k-1个子集的并集作为训练集，剩下那个作为试集。
注意：该方法也要进行若干次随机划分。
若进行10级划分，进行10折交叉验证，则会进行10*10次训练
k一般取10，也有5，20
法3自助法
自助采样也称为可重复采样，有放回采样
思想：通过自助采样对数据集D进行采样得到数据集D’，将D’作为训练集，D-D’作为测试集
优点：适用于数据集较小，难以有效划分训练/测试集时
缺点:引入估计偏差
2.2.4调参