西瓜书第一章-绪论
1.1引言
- 机器学习:研究如何通过计算来实现利用经验来改善系统自身。
- 经验:数据。
- 模型:得到的结论。模型用来进行相应的判断(预测)。
1.2基本术语
1.2.1 数据集
- 数据集(Data Set):又称样本空间(Sample Space)。上图的行名。是一组记录、数据的集合。
- 单个数据(Data):又称为示例(Instance)、样本(Sample)。是每条记录、数据。
[样本空间&样本] 这里样本空间和样本是不唯一的。样本有时可指数据集或单个示例。若把整个数据集堪称一个样本,那么样本空间即为更大范围的数据(比如数据集的集合hh)。 - 属性(Attribute)/特征(Feature):上图的列名,属性张成的空间称为属性空间或样本空间或输入空间。
- 属性值(Attribute Value)/特征值(Feature Value)
[特征向量] 如上图,若把属性作为坐标轴,每个西瓜可对应一个点,点的坐标向量=示例=特征向量(Feature Vector)。向量特征数称为维数,维数灾难(Curse of Dimensionality)即指维数非常大导致数据集构成的矩阵非常稀疏而浪费空间和算力的情形。 - 学习(Learning)/训练(Training):通过执行某个学习算法,从数据中学得模型的过程。
- 训练数据(Training Data):训练过程使用的源数据。
- 训练样本(Training Sample):训练数据中的每个样本(样本)。
- 训练集(Training Set):训练样本的集合(数据集)。
- 假设(Hypothesis):学的模型对应了关于数据的某种规律。
- 真相(Ground Truth):该规律客观存在的自身。
- 学习器(Learner):指在学习算法在给定数据和参数空间上的实例化,学习器的学习过程就是为了找出或逼近Ground Truth。
- 预测(Prediction):预测模型。训练样本的结果信息,比如“((青绿,蜷缩,浊响),(好瓜))”。
- 标记(Label):关于示例结果的信息,如“好瓜”。
- 标记空间(Label Space)/输出空间:所有标记的集合(样本空间是所有样本/示例的集合)。
- 样例(Example):拥有了标记信息的示例。
- 预测值为离散值的问题:分类(Classification);为连续值得问题为:回归(Regression)。
- 二分类任务(Binary Classification)通常有正类/负类,输出空间为{0,1}或{-1,1};多分类任务(Multi-class Classification)。
- 监督学习(Supervised Learning):训练数据有标记信息,代表为分类和回归。
- 无监督学习(Unsupervised Learning):训练数据无标记信息,代表为聚类。
- 泛化能力(Generalization):学得模型适用于新样本的能力
[分布] 通常假设样本样本空间中全体样本服从一个未知的分布(Distribution),我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布(Independent and identically distributed,aka. i.i.d.)。
1.3假设空间
- 归纳(Induction)和演绎(Deduction):前者是从特殊到一般的Generalization泛化过程,后者是从一般到特殊的Specialization特化过程(公理-引理)。
- 归纳学习(Inductive Learning):广义理解是”从样例中学习“。狭义理解是从训练数据中学得概念(Concept),概念学习研究较少因为涉及语义(Semantic),概念学习中最基本的是布尔概念学习(指是/不是为目标概念的*学习,比如我们上图中的好瓜和坏瓜)
- 假设空间(Hypothesis Space):学习的过程可以看做一个在所有假设(Hypothesis)组成的空间(即”假设空间“)中进行搜索的过程,搜索目标是找到与训练集匹配(Fit)的假设,即能够将训练集中的瓜全部判断正确的假设。
- 版本空间(Version Space):有多个假设与训练集一致(训练集在假设上都成立即可(“包含”),因此可有很多种情况,eg. 色泽=all,根蒂=蜷缩,敲声=all与色泽=all,根蒂=蜷缩,敲声=清脆)即存在着一个与训练集一致的假设集合,称之为版本空间。
1.5、1.6、1.7发展历程,应用现状,阅读材料
? ? ? ? 没什么好说的。主流就这些:
- 数据挖掘:发现数据之间的关系
- 计算机视觉:像人一样看懂世界
- 自然语言处理:像人一样看懂文字
- 机器人决策:像人一样具有决策能力
西瓜书第二章-模型评估与选择
2.1 经验误差与过拟合
- 错误率(Error Rate):分类错误的样本数 / 样本总数
- 精度(Accuracy):1 - 错误率
- 误差(Error):学习器实际预测输出和样本真实输出之间的差异
训练误差(Training Error)/经验误差(Empirical Error):学习器在训练集上的误差 泛化误差(Generalization Error):学习器在新样本上的误差 - 过拟合(Overfitting):学习器将训练样本学的太好,导致泛化性能下降。过拟合无法避免只能缓解
欠拟合(Underfitting):学习器学习能力低下造成
2.2评估方法
- 留出法:将数据集分为训练集和测试集。
- 交叉验证法:例如分成1、2、3、4四部分,我们可以先以1、2、3为训练集,以4为测试集;然后以1、2、4为训练集,以3为测试集…
- 自助法:以自主采用法为基础,适用于数据集较小、难以有效划分训练/测试集时很有用;此外他也能从原始数据中产生多个不同的训练集,对集成学习很有帮助。
- 调参和模型选:大多数的学习算法的参数都需要设定,参数的一些很微小的变化都会引起结果的差异。
2.3性能度量
????????性能度量是衡量模型泛化能力的评价标准。模型的好坏是相对而言的。
2.4、比较检验
- 测试集和训练集上的性能比较
- 不同大小的测试集
- 相同大小的测试集但是测试样例不同
- 算法本身具有随机性,相同的参数在同一个测试集上运行多次
2.5、偏差与方差
- 偏差与方差分解(Bias-Variance Decomposition):是解释学习算法泛化性能的一种重要工具。
- 对测试样本队令yD为m在数据集中的标记y为x 的真实标记,f(x;D)为训练集D上学得模型f在x上的预测输出。
- 一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境(Bias-Variance Dilemma)。前期训练程度低,偏差影响大(欠拟合),后期方差影响大(过拟合)。
参考周志华著《机器学习》及相关资料。
|