IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习(三) 模型评估与选择 相关知识点 复习回顾 -> 正文阅读

[人工智能]机器学习(三) 模型评估与选择 相关知识点 复习回顾

一、为什么模型评估

(1)经验误差和泛化误差

经验误差:就是训练误差,在训练集上训练的误差。

泛化误差:测试集上的误差,训练后的模型在测试集上的误差。

(2)过拟合、欠拟合

过拟合:当学习器把训练样本学得太好的时候,很可能已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,这样就会冬至泛化性能下降,这种状态叫过拟合。
欠拟合:与之相反则是欠拟合。

(3)多种因素导致过拟合、欠拟合以及相关解决方案

常见的就是 学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了。而欠拟合通常由于学习能力低导致。

造成过拟合原因主要有以下几种:

  • 训练数据集样本单一,样本不足。
  • 训练数据中噪声干扰过大。
  • 模型过于复杂。

解决过拟合的一些方法:

  • 获取和使用更多的数据,增加数据的丰富性和多样性。
  • 使用合适的网络模型。
  • 提取的数据特征不易过多。
  • 使用正则化项。

解决欠拟合的方法:

  • 增加网络模型的复杂度和增加数据特征的提取。
  • 增加训练代数。
  • 决策树中扩展分支。

二、什么是模型评估

(1)评估方法

  • 留出法
    把数据集进行分割,大部分用以训练,少部分用于测试。
  • 交叉验证法
    把数据平均分成K份,K-1用以训练,单独的一份用以测试,分别做K次取平均值。
  • 自助法
    以上的方法都不能做到拿所有的训练集用以训练,而自助法是通过取出放回的方法,独立的取K次。用于训练,总有没取到的数据用以测试。

(2)性能度量

错误率、精度、查准率、查全率

True positives(TP,真正) : 预测为正,实际为正
True negatives(TN,真负):预测为负,实际为负
False positives(FP,假正): 预测为正,实际为负
False negatives(FN,假负):预测为负,实际为正

  • 查询率 P = TP / TP + FP =预测结果为正的结果中,有多少是真正的预测对了
  • 查全率 R = TP / TP + FN = 所有真值为正的数据中,有多少被真正预测对了
  • Y轴为查准率 P,X 轴为查全率 R,呈现的就是 P-R 曲线。
  • 平衡点大 ,模型性能好。
    在这里插入图片描述

均方误差、ROC、AUC

  • 均方误差:在预测任务中,我们通过训练得到对应的模型 f f f,然后通过模型去进行预测,得到的预测值 f ( x i ) f(x_{i}) f(xi?) 和真值 y i y_{i} yi? 进行比较,来评估模型的性能。

    公式如下:
    E ( f ; D ) ) = 1 m ∑ i = 1 m ( f ( x i ) ? y i ) 2 ) E(f;D))=\frac{1}{m}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}) E(f;D))=m1?i=1m?(f(xi?)?yi?)2)

最小二乘法

均方误差具有很好的几何意义,它对应了常用的欧几里得距离,基于均方误差最小化来进行模型求解的方法称为 ‘最小二乘法’。

在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

LDA(Linear Discriminant Analysis) 线性判别分析

LDA 的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;
在对新样本进行分类的时候,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
  • ROC

    真正例率 TPR = TP / TP + FN = 所有正例中,有多少预测对了,也就是正样本预测精度

    假正例率 FPR = FP / TN + FP = 所有负例中,有多少预测对是错的,也就是负样本预测精度
    在这里插入图片描述

  • AUC (Area Under ROC Curve)

    ROC 曲线下边的面积就是 AUC

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-24 15:33:09  更:2021-08-24 15:35:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 18:42:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码