**
第一章绪论
1.1 引言 1)机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科; 2)机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm); 3)本书用“模型”泛指从数据中学得的结果。 1.2 基本术语 1)示例(样本):(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),… 数据集:示例的合集; 属性(特征):色泽、根蒂、敲声; 属性值(特征值):青绿、蜷缩、浊响; 属性空间(样本空间、输入空间):属性张成的空间; 维数:描述示例的属性个数; 学习(训练):从数据中学得模型的过程,这个过程通过执行某个学习算法来完成; 训练数据:训练过程中使用的数据; 训练样本:训练数据中的样本; 训练集:训练样本组成的集合; 假设:学的模型,学得模型对了关于数据的某种潜在的规律; 真相(真实):潜在规律自身; 结果:例如((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜); 标记:例如(好瓜); 样例:有标记信息的示例; 分类:若我们预测的是离散值(例如“好瓜”“坏瓜”),此类学习任务称为分类; 回归:若预测的是连续值,例如西瓜的成熟度0.95、0.37,此类学习任务称为回归; 二分类:只涉及两个类别的任务,一个称为“正类”,一个称为“反类”; 多分类:涉及多个类别的任务; 测试:学得模型后,使用其进行预测的过程; 测试样本:被预测的样本; 聚类:将训练集中的西瓜分成若干组; 簇:每组称为一个簇; 监督学习,无监督学习:根据训练集是否拥有标记信息,学习任务大致分为这两大类,分类和回归是前者的代表,聚类是后者的代表; 泛化能力:学得模型适用于新样本的能力,训练样本越多,我们得到的关于一个为止分布的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型; 1.3假设空间 1)归纳与演绎是科学推理的两大基本手段,前者是从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的“特化”过程,即从基础原理推演出具体状况; 2)我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了; 1.4归纳偏好 1)机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,或称为“偏好”;任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果;
第二章模型评估与选择
(太多的公式现在还不能很好的理解并且感觉用处并不是很大,所以只看了看概念和用处)
2.1经验误差与过拟合 1)错误率:分类错误的样本数占样本总数的比例; 2)精度:1-错误率 3)误差:学习器的实际预测输出与样本的真是输出之间的差异称为误差,在训练集上的误差称为训练误差或经验误差,在新样本上的误差称为泛化误差; 4)过拟合:当学习器把训练样本学的“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一些性质,这样就会导致泛化性能下降,这种现象在机器学习中称为过拟合;与其相对的是“欠拟合”,这是指对训练样本的一般性质尚未学好;欠拟合比较容易克服,而过拟合无法彻底避免,只能缓解; 2.2评估方法 1)使用一个测试集来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似; 2)测试样本尽可能不出现在训练集中; 2.2.1留出法 直接将数据集D划分为两个互斥的集合,S作为训练集,T作为测试集; 2.2.2交叉验证法 将D划分为k个大小相似的互斥子集,每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到,然后每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集; 2.2.3自助法 2.2.4调参与最终模型 1)大多数学习算法都有些参数需要设定,参数配置不同,学得模型的性能往往有显著差别; 2.3性能度量 1)性能度量:衡量模型泛化能力的评价标准;
|