IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【ML西瓜书】绪论 -> 正文阅读

[人工智能]【ML西瓜书】绪论

什么是学习

基于某种经验E,对于某项任务T,有了性能P的提升,就叫学习

基本术语

给定西瓜的场景: 假设我们收集了一批西瓜的数据,例如:

第一个西瓜:(色泽=青绿;根蒂=蜷缩;敲声=浊响)

第二个西瓜: (色泽=乌黑;根蒂=稍蜷;敲声=沉闷)

第三个西瓜: (色泽=浅自;根蒂=硬挺;敲声=清脆)

……

数据集

所有的西瓜的数据,我们称为数据集。即,数据的集合。

实例 / 样本

任意一个西瓜的数据,例如?(色泽=青绿;根蒂=蜷缩;敲声= 浊响 ),就是一个实例,或者一个样本。即,数据集中的一条数据。

特征 / 属性

?我们看一下西瓜的数据,例如?(色泽=青绿;根蒂=蜷缩;敲声= 浊响 )

它有色泽,?根蒂,?敲声三个不同层面上的特点,这三个层面,我们叫三个特征,或者叫三个属性

特征向量

每个西瓜都是由一组属性/特征组成的,如果把特征依次排列,构成一个一维向量

(特征1,特征2,特征3...),

那么,每个西瓜的数据,都可以成为特征向量

?特征维数

不同特征的个数称为特征维数

训练样本

用于完成模型训练、构建的样本称为训练样本。

测试样本

在模型构建完成后,用于测试、验证模型效果的样本称为测试样本。

训练集

所有训练样本的集合为:训练集

测试集

所有测试样本的集合为:测试集

泛化能力

根据样本的特征(特殊),训练模型?,使用模型对新的样本(一般)进行判断、分析,给出结论的能力称为泛化能力

回归

完成的是连续值的预测,根据前后的数据,对连续曲线上的某些指定位置进行预测。

分类

分类完成的是离散结果的判断,?完成是或否、种类、类别的预测。

有标记与无标记

当给定的样本带有类别标签的时候,叫有标记信息。

当给定的样本仅含有特征信息,没有具体的类别标签的时候,叫无标记信息。?

?有监督学习与无监督学习

使用有标记信息进行训练和学习的过程称为有监督学习,如回归、分类问题。

使用无标记信息进行训练和学习的过程称为无监督学习,如聚类、关联规则。

模型评估?

误差

我们通过构件好的模型进行预测得到一个预测结果,将预测结果与真实值之间的差异叫做误差。

训练误差

在训练过程中由训练样本产生的误差。

测试误差

在测试过程中,由测试样本产生的误差。

泛化误差?

新的样本验证过程中产生的误差。

?过拟合

过拟合指的是,在训练集上学习的时候,模型把样本的基本特征学习到了,同时又把训练样本的特有的特征也学习到了,导致在新的样本上面验证时,效果并不理想。

过拟合在测试集上误差较小,新样本上误差较大。

欠拟合

欠拟合指的是,在训练集上学习的时候,模型把样本的基本特征都没有学习到位,导致在新的样本上面验证时,效果并不理想。

欠拟合在测试样本和新样本上误差都很大。

训练集和测试集的划分

留出法

将数据集划分为两个互斥的集合,一个作为训练集S,一个作为测试集T,

常见的划分为:大约2/3-4/5的样本用作训练,剩下的用作测试。

需要注意的是:训练/测试集的划分要尽可能保持数据分布的一致性,常见的做法是采取分层抽样。同时,由于划分的随机性,一般要采用若干次随机划分,重复实验取平均值的做法。?

?

交叉验证法

将数据集D划分为k个大小相同的互斥子集,同样地尽可能保持数据分布的一致性,即采用分层抽样的方法获得这些子集。

交叉验证法的思想是:每次用k-1个子集的并集作为训练集余下的那个子集作为测试集,这样就有K种训练集/测试集划分的情况,从而可进行k次训练和测试,最终返回k次测试结果的均值。交叉验证法也称“k折交叉验证”,k最常用的取值是10。

?自助法

自助法的基本思想是:在集合D中进行m次有放回抽样,得到了包含m个样本的数据集D',将其作为训练集,将D-D'作为测试集。常用于数据量较小的场景,由于自助法产生的数据集(随机抽样)改变了初始数据集的分布,因此引入了估计偏差。

在初始数据集足够时,留出法和交叉验证法更加常用。

调参

模型中往往存在参数,对参数进行确定,调试使得结果最佳是学习的目的。?往往给定参数范围,给定步长,进行学习。

确定模型参数后,还会使用训练集的数据在进行依次训练,让泛化效果更佳。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-10 22:31:02  更:2022-03-10 22:33:14 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 16:32:16-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码