什么是机器学习?
机器学习所研究的主要内容是‘算法’,在计算机上从数据中产生“模型”(model)的算法,这个算法称之为“学习算法”。
之后,我们就可以使用这个模型,给出输入,得到输出
第一章
基本术语
一条数据(色泽=青绿;根蒂=蜷缩;敲声=浊响) 数据集(data set):一组记录的集合称为一个数据集。 示例(instance)/样本(sample):在一个数据集中,其中的每条记录都是对一个事件或者对象的描述,称为示例(instance)或样本(sample) 注意:数据集有时也称作样本,因为它也是样本空间的一个采样。需要结合上下文判断 属性(attrribute)/特征(feature):反映事件或对象在某方面的表现或性质的事情。如“色泽” 属性值(attribute value):属性上的取值,书中例子为“青绿” “乌黑” 。 属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间,例如我们把"色泽" “根蒂” “敲声"作为三个坐标轴,则它们张成 一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个 “特征向量” (feature vector). 学习(learning)/训练(training):从数据中学得模型的过程。训练过程中使用的数据称为"训练数据” (training data),其中每个样本称为一个训练样本" (training sample), 训练样本组成的集合称为"训练集" (training set)。 学得模型对应了关于数据的某种潜在的规律,因此模型也称为假设(hypothesis)。 这种潜在规律自身,则称为"真相"或"真实" (ground-truth),学习过程就是为了找出或逼近真相。 本书有时也将模型称为“学习器”(learner) 标记:关于示例结果的信息,例如“好瓜”,称为标记 示例:拥有了标记信息的示例,则称为样例 标记空间/输出空间:就是所有标记的集合,
分类:预测的结果是离散值 回归:预测的结果是连续值
假设空间
假设空间的分析,转自https://www.lilinchao.com/archives/909.html
假设空间的表示: 假设空间的表示形式为“(色泽=?)∧(根蒂=?)∧(敲声=?)”。 表示形式确定了,假设空间的规模大小就确定了 规模大小的计算: 以书中的例子,我们知道对好瓜的判断由色泽,根蒂,敲声来确定。每个属性的属性值都有三种可能, 另外,对于每个属性,如“色泽”,也许取什么值都合适,即通配符“”。因此每个属性有四种取法。 因而可得假设空间大小为 44*4 + 1 =65 版本空间:对于一个数据集,可能是存在着多个假设都与训练集一致,这多个假设组成的集合就称为“版本空间”
第二章模型评估与选择
处理数据集的方法
机器学习中的模型选择:1.选择哪种学习算法2.选择哪种参数配置 我们只有一个包含m个样例的数据集D,需要进行处理得到训练集S和测试集T。 法1留出法 思想:将D划分成两个互斥的子集,一个作S,一个作T 注意:该方法,需采用若干次随机划分,每次划分进行评估,结果取所有结果的平均值 划分时一般,2/3-4/5用作训练 法2交叉验证法(k折交叉验证) 思想:将D划分为k个大小相近的互斥子集。使用k-1个子集的并集作为训练集,剩下那个 作为试集。 注意:该方法也要进行若干次随机划分。 若进行10级划分,进行10折交叉验证,则会进行10*10次训练 k一般取10,也有5,20 法3自助法 自助采样也称为可重复采样,有放回采样 思想:通过自助采样对数据集D进行采样得到数据集D’,将D’作为训练集,D-D’作为测试集 优点:适用于数据集较小,难以有效划分训练/测试集时 缺点:引入估计偏差 2.2.4调参
性能度量
衡量学习器泛化能力的评价标准称为性能度量 对于回归任务 1.均方误差 对于分类任务 1.错误率和精度 2.查准率、查全率与F1
|