第1章绪论

1.1 引言

机器学习研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”常以“数据”形式存在，因此机器学习主要研究在计算机上从数据中产生“模型”的算法。

1.2 基本术语

一组记录的集合称为一个“数据集”，每条记录是关于一个事件或对象的描述，称为一个“事例（instance）”或“样本（sample）”。
反映事件或对象在某方面的表现或性质的事项称为“属性（attribute）”或“特征（feature）”。
属性上的取值称为“属性值（attribute value）”。
属性张成的空间称为“属性空间（attribute space）”、“样本空间（sample space）”或“输入空间”。

把数据集里的每一个特征作为一个维度，于是具有N个特征值的数据集就形成了一个关于数据集里每一个记录的N维空间，每个记录都可以在这个空间中找到自己的坐标位置，也就可以称每个记录为一个“特征向量（feature vector）”

从数据中学得模型的过程称为“学习（learning）”或“训练（training）”，该过程通过执行学习算法来完成。
训练过程使用的数据称为“训练数据（training data）”，其中每个样本称为一个“训练样本（training sample）”，训练样本组成的集合称为“训练集（training set）”。
学得模型对应了关于数据的某种潜在的规律，因此称为“假设（hypothesis）”，这种潜在规律自身则称为“真相”或“真实（ground-truth)",学习的过程就是为了找出或逼近真相。
模型有时也叫“学习器（learner）”，可以看作学习算法在给定数据和参数空间上的实例化。
还需要建立一个关于“预测（prediction）”的模型。关于结果的信息称为“标记（label）”，拥有标记信息的示例称为“样例（example）”。
一般用 $x_i,y_i)$ 来标识第i个样例，其中 $y_i\in\Upsilon$ 是示例 $x_i$ 的标记， $\Upsilon$ 是所有标记的集合，亦称为“标记空间（label space）”或“输出空间”。
预测值为离散值，如优、中、良，则此类学习任务为“分类（classification）”；若为连续值，如0.95、0.62，则称为“回归（regression）”。根据分类数量分为“二分类（binary classification）”和“多分类（multi-class classification)"。
“聚类（clustering）”是将训练集中的记录分成若干组，每组称为一个“簇（cluster）”。

离散

连续

监督学习

分类

回归

二分类

多分类

正类

反类

无监督学习

聚类

学习任务

学得模型适用于新样本的能力，称为“泛化（generalization）”能力，具有强泛化能力的模型能很好地适用于整个样本空间。

1.3 假设空间

归纳和演绎是科学推理的两大基本手段。归纳是从特殊到一般的泛化过程，从具体的事实归结出一般性规律；演绎是从一般到特殊的特化过程，从基本原理推演出具体状况。
各属性所有可能的取值的集合构成了假设空间。
每个属性包括实际可能的取值个数n和一个无论什么值都可以的*，每个属性的空间为n+1个。
还存在一个所有假设都不适合的完美假设，因此整个共有m个属性问题的假设空间为 $n_1+1)(n_2+1)...(n_m+1)+1$ 。
根据每个属性的不同取值，可以将整个假设空间列成一个树的结构。
对假设空间的搜索可以不断删除与正例不一致的假设和与反例一致的假设，最终获得与训练集一致的的假设。
在很大的假设空间中，学习过程一般是基于有限样本训练机进行的，因此可能有多个假设与训练集一致，既存在着一个与训练集一致的“假设集合”，即“版本空间（version space）”。

训练

假设空间

版本空间

1.4 归纳偏好

在训练样本中，无法判断哪种假设更好，此时算法本身的偏好会起到关键作用，如：喜欢尽可能特殊（适用情形少），喜欢尽可能一般（适用情形尽可能多）；对某一种属性的偏好。对某种类型假设的偏好称为“归纳偏好（inductive bias）”。
任何一个有效的机器学习算法必有其归纳偏好，否则将被假设空间中看似“等效”的假设所迷惑，从而无法产生确定的学习结果。