开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 吃瓜笔记01 机器学习绪论与模型评估指标 -> 正文阅读

[人工智能]吃瓜笔记01 机器学习绪论与模型评估指标

学习内容：西瓜书和南瓜书--第1~2章?

讲解课程：Datawhale吃瓜教程（https://www.bilibili.com/video/BV1Mh411e7VU）

第1章绪论

1.1-1.2 基本概念

1. 机器学习：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习.

本书用“模型”泛指从数据中学得的结果，有文献用“模型”指全局性结果（例如一棵决策树），而用“模式”指局部性结果（例如一条规则）.

2. 数据划分：

数据集<==样本(示例，特征向量)<==特征(特征值)

数据集分为：训练集，测试集

训练样本由多个特征和标记组成。

从数据中学得模型的过程称为“学习”（learning）或“训练”（training）。

学得模型对应了关于数据的某种潜在的规律，因此亦称“假设”（hypothesis）；这种潜在规律自身，则称为“真相”或“真实”（ground-truth），学习过程就是为了找出或逼近真相。本书有时将模型称为“学习器”（learner），可看作学习算法在给定数据和参数空间上的实例化.

3. 常见的任务类型：

分类与回归的区别：分类预测离散值，回归预测连续值
聚类：将测试样本聚合为多个“簇”，训练过程不需要标签

泛化能力：学得模型对训练集之外样本的预测能力，泛化能力越强模型越好。

4. 科学推理分为：

归纳推理：由小及大，特殊到一般（泛化）
演绎推理：由大推小，从基础定理或事实中推导出结果（特化）

由此可知，机器学习是一种“归纳学习”方法。狭义的归纳学习指从训练样本中学到概念。现在的技术还难以形成明确且性能好的概念。

5. 假设空间=是选择特征的空间还是某种函数的限制？

机器学习中可能的函数构成的空间称为“假设空间”，也就是由输入空间 X 到输出空间 Y 的映射 f : X->Y 所构成的集合。

学习过程：可以理解为对所有假设空间(hypothesis space)进行搜索，找到最匹配的假设。

1.4 归纳偏好

归纳偏好：一种假设，什么样的模型更好，有某种判断标准。

奥卡姆剃刀原则：主张选择与经验观察一致的最简单假设。

“没有免费的午餐”定理（No Free Lunch Theorem，简称NFL定理）：无论学习算法多聪明或者多笨拙，它们的期望性能竟然相同。算法总在一些问题下表现好，一些问题下表现坏。

要谈论算法的相对优劣，必须要针对具体的学习问题。学习算法自身的归纳偏好与问题是否相配，往往会起到决定性的作用。

机器学习的兴起：

连接主义-如感知机，神经网络
符号主义-基于逻辑学习，如决策树
统计学习-SVM，核方法

第2章模型评估与选择

2.1 误差、过拟合

训练(经验)误差，泛化(测试)误差

过拟合--欠拟合：

2.2 模型评估方法

2.2.1 常见方法

1. 留出法(hold-out)：直接将数据集划分为两个互斥的集合。

对于分类问题，按照类别比例采样。保证训练集与测试集是独立同分布。

2.?交叉验证法(cross validation)：将数据集划分为k个大小相似的互斥子集。

每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可进行k次训练和测试，最终返回的是这k个测试结果的均值。其结果的稳定性很大程度上取决于k的值。

3.?自助采样法(bootstrap sampling)：是随机采样得到的采样集D'训练，用原始数据集D测试（约36.8%的不同）。适用于较小的数据集。

对于m个样本的原始训练集，我们每次先随机采集一个样本放入采样集，接着把该样本放回，也就是说下次采样时该样本仍有可能被采集到，这样采集m次，最终可以得到m个样本的采样集，由于是随机采样，这样每次的采样集是和原始训练集不同的，和其他采样集也是不同的。

2.2.2 调参与模型选择

在进行模型评估与选择时，除了要对适用学习算法进行选择，还需对算法参数进行设定，这就是通常所说的“调参”。

模型评估与选择中用于评估测试的数据集常称为“验证集"(validation set). 在研究对比不同算法的泛化性能时，我们用测试集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分为训练集和验证集，通过在验证集上的性能来进行模型选择和调参.

2.3 性能度量

	预测结果		合计
真实情况	正例	反例	合计
正例	TP（真正例）	FN（假反例）	TP+FN（所有正例）
反例	FP（假正例）	TN（真反例）	FP+TN（所有负例）
合计	TP+FP（预测为正）	FN+TN（预测为反）	N（所有样本）

一、错误率与精度

1、准确率(精度)：被分对的样本比例

ACC = （ TP + TN ）/ All

2、错误率：被分错的样本比例

ERR = （ FP + FN ）/ All

二、查准率、查全率与F1

3、查准率(真正例率)：被分为正例中，有多少是正例

Pre = TP / （TP + FP）

4、召回率(查全率/灵敏度)：样本中的正例多少个被预测正确了

Recall = TP / （TP + FN ）

查准率和查全率是一对矛盾的度量，一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低.

P-R图直观地显示出学习器在样本总体上的查全率、查准率，“平衡点”（简称BEP）就是综合两者的一个度量，它是“查准率=查全率”时的取值。?

更常用的是F1度量：基于查准率与查全率的调和平均。

，即

?三、ROC与AUC曲线

ROC全称是“受试者工作特征”（Receiver Operating Characteristic）曲线。ROC曲线的纵轴是“真正例率"（True Positive Rate），横轴是“假正例率"（False Positive Rate），两者分别定义为：

????????TPR = TP /（TP+FN）

????????FPR = FP /（TN+FP）

判断：进行学习器的比较时，与P-R图相似，若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者；若两个学习器的ROC曲线发生交叉，则难以一般性地断言两者孰优孰劣，此时如果一定要进行比较，则较为合理的判据是比较ROC曲线下的面积，即AUC（Area Under ROC Curve），如图2.4所示.