IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 西瓜书第一二章 -> 正文阅读

[人工智能]西瓜书第一二章

西瓜书第一二章

第一章

相关概念

下面以使用范围较广的监督学习为例子,介绍机器学习的概念

数据集

  • 训练集 有正确答案的,被标记的,用来学习,归纳的数据集。
  • 测试集 没有正确答案的,没有标记的,用来测试模型的优劣的数据集。

对于非监督学习,训练集和测试集就没与什么区别了,只是使用时的目的不一样而已。

上图中数据的每一行,叫做一个示例(instance)、样例(example)、样本(sample)

前三列每一列的表头叫做:属性(attribute)、特征(feature)

每个样本的每一列上的值叫做:属性值、特征值

所有的属性构成一个属性空间,所有的样本构成一个样本空间,输入‘X’可能取值的集合就是输入空间(input space)

属性向量:每一个属性有一个列向量,这些列向量构建: [x1,x2,…xn] 成为一个特征向量

机器学习的整个流程:根据数据的类型,特点等,采用不同学习方法(监督与无监督)中不同的学习算法(learning algorithm)来进行训练,从而得到一个模型,然后对这个模型进行测试,然后改进、迭代。

模型/假设(hypothesis)/学习器(learner):估计函数,对规律和模式的预测
学习机(learner):使用的学习算法
真相(ground-truth):标签、标准答案
样本(sample) = 属性(attribute)/特征(feature)+标记/标签(label)

监督学习与非监督学习

监督学习

给定有标签的数据集,通过它学习输入与输出的对应关系
就像刷题一样,自己做题,然后根据给的答案(label)来不断调整自己的方法和思路,最终作出正确答案。

监督学习目前使用较为广泛

  1. 回归问题

    预测连续值
    根据数据样本上抽取的特征,预测连续值结果,如:房价多少,得分多少,GDP多少

    回归问题是在做计算题

  2. 分类问题
    预测离散值

    根据数据样本上抽取出的特征,判定其属于有限个类别中的哪一个,比如:垃圾邮件识别(结果类别:yes or no),文本情感褒贬识别(结果类别:褒、贬),图像内容识别(结果类别:猫,狗,人,其他)

    分类问题是在做选择题

非监督学习

给定数据集,没有标签,期望模型学习到数据的结构特征

无监督学习没有给出“正确的答案”(标签),而是只有数据,通过程序自己去挖掘数据具有的特征。

聚类算法:将数据分成几类,根据数据样本抽取出的特征,挖掘数据的关联、聚合模式。

第二章

过拟合和欠拟合

过拟合(Overfitting):学习器将训练样本学的太好,导致泛化性能下降。过拟合无法避免只能缓解
欠拟合(Underfitting):学习器学习能力低下造成

评估方法

通常机器学习中,用训练集训练学习方法然后测试集测试学习器对样本的判别能力,以测试集上的测试误差作为泛化误差近似。本节提到几个如何划分测试集和训练集的方法。

  1. 留出法(handout)
  2. 保持数据分布的一致性,保持用于学习的数据集与用于测试的数据集的分布特征一致(例如:分层采样)
  3. 多次重复划分
  4. 测试集不能太大,也不能太小(例如:1/5~1/3)
  5. k 折交叉验证法(cross validation)
    1. 留出法总归是使用了一部分数据,没有测试全部数据,因此 k 折交叉验证就是解决这个问题。
    2. 假设将数据集分成 k = 10 份,第一次使用 D10 作为测试集,第二次使用 D9 作为测试集,直至每个都当过测试集,然后将 k 个结果求平均,就是最终结果。
  6. 自助法(bootstrap )
    1. 基于”自助采样“的方法,也称:“有放回采样”、“可重复采样”
    2. 对数据集进行有放回采样,并且采样出的集合与原样本集同规模,但是数据分布有所改变

各种性能度量概念

  1. 均方误差
  2. 错误度与精度
  3. 查准率,查全率
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-14 23:04:00  更:2021-07-14 23:05:20 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年4日历 -2024/4/28 0:12:36-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码