[人工智能] （机器学习周志华西瓜书南瓜书）吃瓜教程 Task01

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> （机器学习周志华西瓜书南瓜书）吃瓜教程 Task01 -> 正文阅读

[人工智能]（机器学习周志华西瓜书南瓜书）吃瓜教程 Task01

1.3 假设空间

学习过程：在所有假设空间中搜索，为了使搜索结果与训练集一致，可以修改或删除假设。

那么西瓜的色泽、根蒂、敲声就是样本的属性/特征，假设空间就是由数据集属性/特征的所有值组成的空间。学习过程就是就是学习符合“好瓜”特征的值。

所有假设空间：
倘若“色泽”有3种取值，那样本空间则为4，因为还包括任意值 *；
总假设空间还要+1，即加上空集，没有“好瓜”。
在这里插入图片描述
假设空间搜索方式可以自顶向下或自底向上等，可能根据数据集情况而定。

1.4 归纳偏好

怎么判断哪一个瓜“更好”，是尽可能特殊，还是尽可能一般？如果不选择偏好，模型无法判断更好，某个瓜时而是好瓜时而是坏瓜就没有意义了。

常用奥卡姆剃刀原则：“若有多个假设与观察一致，选择最简单的”。即曲线越平滑的，方程次数越小的。

但是可能出现，训练集外的数据更符合复杂的B模型而不是简单的A模型。传说中的No free lunch? 没有免费的午餐定理？若算法a在某些问题上比算法b好，那么必然存在另一些问题，在这些问题中b比a性能更优。没有单一的，通用的最佳机器学习算法，必须根据数据和背景知识来选择合适的机器学习模型。
在这里插入图片描述

误差公式： 在这里插入图片描述

E_ote (E: expectation期望；ote: off-training error训练集外误差)
χ?X：训练集外样本
Ⅱ(*) 指示函数 (indicator function): 定义在某集合X上的函数，表示其中有哪些元素属于某一子集A。则Ⅱ(h(x)≠f(x))为，假设与目标函数不符，分类不正确。

公式解读：
用训练集X训练出的模型a，和实际目标函数 f 的误差 = 对于不同假设h，训练集外每个样本的概率 $\times$ 分类结果 $\times$ 训练集训练a模型得到假设h的概率之和

其中，分类结果只有在不正确的时候，也就是h(x)≠f(x)的时候，指示函数Ⅱ(h(x)≠f(x))才为1。所以公式只会对分类不正确的概率求和。