吃瓜笔记(第一、二章)
《机器学习》(周志华)
笔记
-
通过对大量的对象属性进行分析后得到模型的过程称之为训练 -
进行科学推理常用方法
-
不同的模型会有不同的归纳偏好,也会得到不同的推演结论 -
不同的偏好的算法,并非就有一个更好。而是,两者在不同的情况下,都会有自己的优势,更接近事实 -
合取式、析取式、合取范式、析取范式
- 仅由有限个文字构成的析取式称作“简单析取式”:﹁p ∨ ﹁q p ∨ q
- 仅由有限个文字构成的合取式称作“简单合取式”:﹁p ∧ ﹁q p ∧ q
- 由有限个简单合取式构成的析取式称为析取范式:A = A1 ∨ A2 ∨ A3 ∨ … ∨ An
- 由有限个简单析取式构成的合取式称为合取范式:A = A1 ∧ A2 ∧ A3 ∧ … ∧ An合取式:
-
在学习器学习过程中,应适当的泛化。过拟合 会使得,把训练样本的“独特”当做所有潜在样本的“普遍”特性,从而使得性能下降,通常因为学习能力太“强”造成。如:选择劳动力,因为选择的训练样本中劳动力,国籍均为中国。那么过拟合将国籍确定,则会使得泛化能力下降,而无法选取符合条件的“外籍”男性作为劳动力,但这显然是违背初衷,初衷为选择合适的男性作为劳动力。欠拟合反之,通常是因为学习能力低下造成。 -
P 问题、NP 问题 P 问题:能在多项式时间内解决的问题 NP 问题:能在多项式时间内判断正确与否 理想状态下,如果能让 NP=P,那么久能解决过拟合问题 -
评估泛化误差的常用方法
- 留出法: 数据集一分为二,一部分测试集,一部分为训练集
- 交叉验证法: 数据集分为多个互斥子集。每次剩一个作为测试集,其余均为训练集。而测试集可是是其中的任意一个子集。故,若将数据集分为 k 个子集,则可进行 k 次训练和测试
- 自助法:
将包含 n 个数据的数据集D,随机取n次,获得数据集D’作为训练集,而将数据集D中 n 次均没有取到过的数据,作为测试集
章节习题
1.1 包含编号为1,4的两个样例,给出相应的样版本空间
序号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|
1 | 青绿 | 蜷缩 | 浊响 | 是 | 4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
析:
假设空间:所有可能出现的情况的集合
版本空间:与训练集一致的所有假设所构成的集合
共有三种属性,每种属性有三种情况,分别是:青绿、乌黑以及*(无所谓),故,假设空间空间为,3x3x3=27 种。但符合“好瓜”要求的仅可能是以下七种。
分别是: (色泽=青绿)∧(根蒂=*)??????∧(敲声=*) (色泽=*)??????∧(根蒂=蜷缩)∧(敲声=*) (色泽=*)??????∧(根蒂=*)??????∧(敲声=浊响) (色泽=青绿)∧(根蒂=蜷缩)∧(敲声=*) (色泽=青绿)∧(根蒂=*)??????∧(敲声=浊响) (色泽=*)??????∧(根蒂=蜷缩)∧(敲声=浊响) (色泽=青绿)∧(根蒂=蜷缩)∧(敲声=浊响)
1.2. 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算有多少种可能的假设 题目中 三种属性,假设空间为: 3x4x4=48。所以 k 值,最大取值为 48。 占坑,回补
1.3 若数据包含噪声,则假设空间有可能不存在与所有训练样本都一致的假设,在此情况下,试设计一种归纳偏好用于假设选择 析: 噪声数据:噪声数据(Noisy Data)就是无意义的数据,这个词通常作为损坏数据的同义词使用 最暴力的方法,就是将属性值相同,但标记结果不同的任去掉其中一个
1.5 试述机器学习能在互联网搜索中哪些环节起到什么作用
- 在输入阶段:
- 分析用户的文本语义
- 可以根据用户的输入文本给于相应的联想
- 在搜索阶段:
- 提高关键字匹配程度
- 根于用户的搜索习惯提高内容的适配度
- 在展示结果阶段:
延伸思考
- 机器学习必然是一个从 实践 -> 理论(模型预测) -> 实践 的一个过程。从实际中获取数据,对数学进行分析、建模,不断训练,最终进行预测在实际生活中运用,造福人类
|