IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习——第一章 绪论 -> 正文阅读

[人工智能]机器学习——第一章 绪论

第1章 绪论

1.1 引言

机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”常以“数据”形式存在,因此机器学习主要研究在计算机上从数据中产生“模型”的算法。

1.2 基本术语

  • 一组记录的集合称为一个“数据集”,每条记录是关于一个事件或对象的描述,称为一个“事例(instance)”或“样本(sample)”。
  • 反映事件或对象在某方面的表现或性质的事项称为“属性(attribute)”或“特征(feature)”。
  • 属性上的取值称为“属性值(attribute value)”。
  • 属性张成的空间称为“属性空间(attribute space)”、“样本空间(sample space)”或“输入空间”。

把数据集里的每一个特征作为一个维度,于是具有N个特征值的数据集就形成了一个关于数据集里每一个记录的N维空间,每个记录都可以在这个空间中找到自己的坐标位置,也就可以称每个记录为一个“特征向量(feature vector)”

  • 从数据中学得模型的过程称为“学习(learning)”或“训练(training)”,该过程通过执行学习算法来完成。
  • 训练过程使用的数据称为“训练数据(training data)”,其中每个样本称为一个“训练样本(training sample)”,训练样本组成的集合称为“训练集(training set)”。
  • 学得模型对应了关于数据的某种潜在的规律,因此称为“假设(hypothesis)”,这种潜在规律自身则称为“真相”或“真实(ground-truth)",学习的过程就是为了找出或逼近真相。
  • 模型有时也叫“学习器(learner)”,可以看作学习算法在给定数据和参数空间上的实例化。
  • 还需要建立一个关于“预测(prediction)”的模型。关于结果的信息称为“标记(label)”,拥有标记信息的示例称为“样例(example)”。
  • 一般用 ( x i , y i ) (x_i,y_i) (xi?,yi?)来标识第i个样例,其中 y i ∈ Υ y_i\in\Upsilon yi?Υ是示例 x i x_i xi?的标记, Υ \Upsilon Υ是所有标记的集合,亦称为“标记空间(label space)”或“输出空间”。
  • 预测值为离散值,如优、中、良,则此类学习任务为“分类(classification)”;若为连续值,如0.95、0.62,则称为“回归(regression)”。根据分类数量分为“二分类(binary classification)”和“多分类(multi-class classification)"。
  • 聚类(clustering)”是将训练集中的记录分成若干组,每组称为一个“(cluster)”。
离散
连续
监督学习
分类
回归
二分类
多分类
正类
反类
无监督学习
聚类
学习任务
  • 学得模型适用于新样本的能力,称为“泛化(generalization)”能力,具有强泛化能力的模型能很好地适用于整个样本空间。

1.3 假设空间

  • 归纳和演绎是科学推理的两大基本手段。归纳是从特殊到一般的泛化过程,从具体的事实归结出一般性规律;演绎是从一般到特殊的特化过程,从基本原理推演出具体状况。
  • 各属性所有可能的取值的集合构成了假设空间
  • 每个属性包括实际可能的取值个数n和一个无论什么值都可以的*,每个属性的空间为n+1个。
  • 还存在一个所有假设都不适合的完美假设,因此整个共有m个属性问题的假设空间为 ( n 1 + 1 ) ( n 2 + 1 ) . . . ( n m + 1 ) + 1 (n_1+1)(n_2+1)...(n_m+1)+1 (n1?+1)(n2?+1)...(nm?+1)+1
  • 根据每个属性的不同取值,可以将整个假设空间列成一个树的结构。
  • 对假设空间的搜索可以不断删除与正例不一致的假设和与反例一致的假设,最终获得与训练集一致的的假设。
  • 在很大的假设空间中,学习过程一般是基于有限样本训练机进行的,因此可能有多个假设与训练集一致,既存在着一个与训练集一致的“假设集合”,即“版本空间(version space)”。
训练
假设空间
版本空间

1.4 归纳偏好

  • 在训练样本中,无法判断哪种假设更好,此时算法本身的偏好会起到关键作用,如:喜欢尽可能特殊(适用情形少),喜欢尽可能一般(适用情形尽可能多);对某一种属性的偏好。对某种类型假设的偏好称为“归纳偏好(inductive bias)”。
  • 任何一个有效的机器学习算法必有其归纳偏好,否则将被假设空间中看似“等效”的假设所迷惑,从而无法产生确定的学习结果。

归纳偏好就像是一个人的喜好,他在自己生存的空间(假设空间)中根据自己的思想(偏好)将所有人生必经的点(训练样本)串起来形成自己的人生路线(最终得到的模型),对于给定的新测试样本将会根据自己的人生经验(之前形成的模型)进行自己的判断。
当然不同的偏好就会形成不同的模型。

假设空间就是这个平面,黑点是训练样本,曲线是训练得到的模型
假设空间就是这个平面,黑点是训练样本,曲线是训练得到的模型。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-17 15:24:00  更:2021-08-17 15:25:33 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/16 4:06:39-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码