西瓜书学习笔记——绪论

一、引言

经验：在生活中，我们存在很多用经验来做判断的事情，在计算机系统中，这些经验用"数据”来进行表示，一条数据就是一个经验。

模型：指从数据中学得的结果。

模式：指局部性结果。

机器学习的任务：关于计算机从数据中产生“模型”的算法，也就是我们经常说的学习算法。有了这个模型，我们就可以将数据输入其中从而得到判断结果。

机器学习的形式化定义：假设用P来评估计算机程序在某一个任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。

二、基本术语

属性：反映事件或对象在某方向的表现或性质，也称为特征。

属性值：顾名思义，属性的取值就称为属性值。

属性空间：属性张成的空间称为属性空间，也称为样本空间或者“输入空间”。

数据集：一组记录的集合称为数据集。

样本：其中每一条记录是关于一个事件或对象的描述，称为示例或样本。

学习：从数据中学得模型的过程称为学习，这个过程一般通过执行某个学习算法来完成，也称为训练。

训练数据：训练过程中使用的数据称为训练数据。

训练样本：训练过程的每个样本称为训练样本。

训练集：由训练样本组成的集合称为训练集。

假设：学得模型对应了关于数据的某种潜在的规律,即hypothesis。

学习器：其实学习的过程是为了找出或者逼近真相，所以我们有时候也把模型称为“学习器”，可看作学习算法在给定数据和参数空间上的实例化。

标记（label）：想要学得一个模型，仅有已有的示例数据是不够的。要建立一个关于预测的模型，需要获得训练样本的“结果”信息。

分类：如果我们预测的值是离散值，这一类学习任务就称为分类。

回归：如果我们预测的值是连续值，则我们称此类学习任务为回归。

监督学习（supervised learning）：训练的数据既有特征又有标签，通过训练，典型代表是分类和回归。

无监督学习（unsupervised learning）：训练的数据没有标签存在，通过数据之间的内在联系和相似性将他们分成若干类。典型代表为聚类。

泛化能力：我们学的模型可以适用于新样本的能力称为泛化能力，具有强泛化能力的模型可以很好的适用于整个样本空间。

独立同分布：假设样本空间中全体样本服从一个未知的“分布”D，我们获得的每个样本都是独地从这个分布上采样获得的，即“独立同分布”。

三、假设空间

归纳（induction）：从特殊到一般的“泛化”过程。即从具体的事实归结出一般性规律。

演绎（deduction）：从一般到特殊的“特化”（specialization）过程。即从基础原理推演出具体的情况。

归纳学习有狭义和广义之分，广义的归纳学习大体相当于从样例中进行学习，而狭义的归纳学习则要求从训练数据中学得概念，因此也称为"概念学习"或者“概念生成”。

我们可以把学习过程看做是一个在所有的假设（hypothesis）组成的空间中进行搜索的空间，搜索目标是找到与训练集“匹配”（fit）的假设，即能够将训练集中的瓜判断正确的假设。假设一旦确定，假设空间及其规模大小就确定了。

在现实问题中，我们有时候会面临很大的假设空间，但是学习过程是基于有限样本集进行的。因此可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”，我们称之为版本空间。

四、归纳偏好

我们把机器学习算法在学习过程中对某种类型的偏好就称为归纳偏好，或者简称为“偏好”。任何一个有效的机器学习算法都必须要有偏好，否则会被假设空间中的看似在训练集中“等效”的假设所迷惑，从而产生无法确定的结果。

奥卡姆剃刀准则：即有多个假设与观察一致，则选择最简单的那个。

对于如下两个算法A和B，我们根据平滑曲线的某种“描述简单性”希望算法A的性能比算法B更好。左图的结果显示：与B相比，A与训练集外的样本更一致，换言之，A的泛化能力比B强。但是右图的结果显示算法B的性能更好，这种情况也有可能出现。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-akGsByrG-1626183529122)(TyporaNote/Markdown图片/12.png)]

**NFL定理（no free lunch theorem)**证明了误差与学习算法无关。但NFL定理建立在一个假设上：f（真实目标的函数）是均匀分布的(所有问题出现的机会相同或所有问题同等重要）。实际上，f并不是均匀分布的。所以需要根据我们对f的偏好来选择不同的模型。