IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 南瓜书(机器学习) - Task01 - 学习笔记 -> 正文阅读

[人工智能]南瓜书(机器学习) - Task01 - 学习笔记

背景:正所谓“生化环材”四大天坑,机械土木两大护法。本人是机械专业的研一学生,因为在帮导师搬砖的过程中需要涉及Machine Learning以及Deep Learning方面,因而准备系统学习一下,也感谢DataWhale提供的教学视频与平台。(背景介绍完毕)

打卡任务:Task01是掌握西瓜书的第一章和第二章

学习笔记:

1. 西瓜书的第一章是绪论部分,主要是引入机器学习的概念以及今后需要涉及到一些基本术语:

数据集:一般将一组记录的集合称为一个“数据集”;

属性(特征):反应事件或对象在某方面的表现或性质的事项;

样本空间(属性空间、输入空间):属性张成的空间;

学习(训练):从数据中学得模型的过程,该过程通过执行某个学习算法来完成;

1.1 训练过程中的一些基本术语

训练数据:训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样本,训练样本组成的集合称为训练集(training set);

样例:拥有标记信息的示例;

1.2 分类与回归

分类、回归:根据我们欲预测的值是离散值和连续组,可将学习任务分为分类(离散值)和回归(连续值);

二分类和多分类:根据涉及的类别数目可分为二分类和多分类,对只设计两个类别的“二分类”任务,通常称其中一个类为正类,另一个类为反类。涉及多个类别时,则称为多分类任务;

1.3 测试

测试:学得模型后,使用其进行预测的过程称为测试,被预测的样本称为测试样本;

1.4 聚类

聚类:将训练集分成若干组,每组称为一个簇,这些自动形成的簇可能对应一些潜在的概念划分;

1.5 监督学习与无监督学习

监督学习:训练数据有标记信息;

无监督学习:训练数据无标记信息;

分类和回归是监督学习的代表,聚类是无监督学习的代表;

值得注意的是,学得模型是要有较好的泛化能力(泛化:即学得模型适用于新样本的能力),具有强泛化能力的模型能很好地适用于整个样本空间。

1.6 归纳偏好

在对比不用模型的泛化能力时,大致要对奥卡姆剃刀原则和“没有免费的午餐”定理有一定的理解。

“没有免费的午餐”定理:即总误差与学习算法是无关的,但需要透过现象看清本质,即空泛地谈论“什么学习算法更好”并没有意义,需要具体问题具体分析。

2. 西瓜书的第二章是关于模型的评估与选择

这章重点需要了解经验误差与过拟合、主要的几种评估方法

2.1 经验误差与过拟合

错误率、精度:通常把分类错误的样本数占样本总数的比例称为“错误率”,相应的,精度=1 -?错误率;

误差:训练误差、泛化误差

训练误差:学习器(模型)在训练集上的误差称为训练误差

泛化误差:学习器在新样本上的误差

过拟合和欠拟合:西瓜书上以树叶训练样本为例来阐述过拟合和欠拟合,总的来说即为,当学习器把训练样本学习的太好的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样会导致泛化能力下降,这种现象在机器学习中被称为“过拟合(overfitting)”,欠拟合是相对于过拟合而言的,指的是训练样本的一般性质尚未学好。欠拟合一般是比较容易克服的,但是过拟合比较麻烦,而且无法彻底避免,只能减轻其带来的风险。

2.2 评估方法

为了测试模型的泛化能力,需要对数据集D记性适当的处理,从中产生训练集S和测试集T,几种常见的方法包括留出法、交叉验证法、自助法。

留出法:常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试

交叉验证法:大体如下图所示:

自助法:自助法产生的数据集改变了初试数据集的分布,从而引入了估计偏差。在初始数据量足够时,留出法和交叉验证法更常用一些。

2.3 性能度量

分类任务中常用的性能度量主要有:(错误率与精度)、(查准率、查全率与F1)

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-14 10:51:52  更:2021-07-14 10:55:51 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年4日历 -2024/4/28 17:09:10-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码