西瓜书* 南瓜书 * 机器学习 * 周志华 * 第一章 * 学习小结
第一章 绪论
1.1 绪论
通过一个关于 瓜 的故事引入了对于机器学习这门课的学习。 机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
1.2基本术语
数据集 data set 示例 instance 样本 sample 属性 attribute 特征 feature 属性值 attribute value 属性空间 attribute space 样本空间 sample space 特征向量 feature vector 预测 prediction 标记 label 样例 example 标记空间 label space 分类 classification 回归 regression 二分类 binary classification 反类 negative class 正类 positive class 多分类 multi-class classification 测试 testing 测试样本 testing sample 聚类 clustering 监督学习 supervised learning 无监督学习 unsupervised learning 泛化 generalization 能力 分布 distribution 独立同分布 independent and identically distributed
从数据中学得模型的过程称为 学习(leaning) 或 训练(training) ,这个过程通过执行某个学习算法来完成。
训练过程中使用的数据称为 **训练数据(training data) **,其中每个样本称为一个 训练样本 (training sample), 训练样本组成的集合称为 训练集 (training set)。
学得模型对应了关于数据的某种潜在的规律,因此亦称 假设 (hypothesis); 这种潜在规律自身,则称为 真相 或 真实 (ground-truth), 学习过程就是为了找出或逼近真相。
本书有时将模型称为 学习器 (learner), 可看作学习算法在给定数据和参数空间上的实例化。
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:监督学习 (supervised learning) 和 无监督学习 (unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。
1.3 假设空间
归纳 induction 演绎 deduction
归纳 是从特殊到一般的"泛化" (generalization)过程,即从具体的事实归结出一般性规律; 演绎 则是从一般到特殊的"特化" (specialization)叫过程,即从基础原理推演出具体状况。
1.4 归纳偏好
要谈论算法的相对优劣,必须要针对具体的学习问题。
1.5 发展历程
所谓深度学习,狭义的说就是“很多层”的神经网络。
1.6 应用现状
数据挖掘(data mining) 是从海量数据中发掘知识,这就必然涉及对"海量数据"的管理和分析。
1.7 阅读材料
…
|