IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Task01:概览西瓜书+南瓜书第1、2章 -> 正文阅读

[人工智能]Task01:概览西瓜书+南瓜书第1、2章


什么是机器学习?
机器学习所研究的主要内容是‘算法’,在计算机上从数据中产生“模型”(model)的算法,这个算法称之为“学习算法”。
之后,我们就可以使用这个模型,给出输入,得到输出

第一章

基本术语

一条数据(色泽=青绿;根蒂=蜷缩;敲声=浊响)
数据集(data set):一组记录的集合称为一个数据集。
示例(instance)/样本(sample):在一个数据集中,其中的每条记录都是对一个事件或者对象的描述,称为示例(instance)或样本(sample)
注意:数据集有时也称作样本,因为它也是样本空间的一个采样。需要结合上下文判断
属性(attrribute)/特征(feature):反映事件或对象在某方面的表现或性质的事情。如“色泽”
属性值(attribute value):属性上的取值,书中例子为“青绿” “乌黑” 。
属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间,例如我们把"色泽" “根蒂” “敲声"作为三个坐标轴,则它们张成 一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个 “特征向量” (feature vector).
学习(learning)/训练(training):从数据中学得模型的过程。训练过程中使用的数据称为"训练数据” (training data),其中每个样本称为一个训练样本" (training sample), 训练样本组成的集合称为"训练集" (training set)。
学得模型对应了关于数据的某种潜在的规律,因此模型也称为假设(hypothesis)。
这种潜在规律自身,则称为"真相"或"真实" (ground-truth),学习过程就是为了找出或逼近真相。
本书有时也将模型称为“学习器”(learner)
标记:关于示例结果的信息,例如“好瓜”,称为标记
示例:拥有了标记信息的示例,则称为样例
标记空间/输出空间:就是所有标记的集合,

分类:预测的结果是离散值
回归:预测的结果是连续值

假设空间

假设空间的分析,转自https://www.lilinchao.com/archives/909.html

假设空间的表示:
假设空间的表示形式为“(色泽=?)∧(根蒂=?)∧(敲声=?)”。
表示形式确定了,假设空间的规模大小就确定了
规模大小的计算:
以书中的例子,我们知道对好瓜的判断由色泽,根蒂,敲声来确定。每个属性的属性值都有三种可能, 另外,对于每个属性,如“色泽”,也许取什么值都合适,即通配符“”。因此每个属性有四种取法。
因而可得假设空间大小为 4
4*4 + 1 =65
版本空间:对于一个数据集,可能是存在着多个假设都与训练集一致,这多个假设组成的集合就称为“版本空间”

第二章模型评估与选择

处理数据集的方法

机器学习中的模型选择:1.选择哪种学习算法2.选择哪种参数配置
我们只有一个包含m个样例的数据集D,需要进行处理得到训练集S和测试集T。
法1留出法
思想:将D划分成两个互斥的子集,一个作S,一个作T
注意:该方法,需采用若干次随机划分,每次划分进行评估,结果取所有结果的平均值
划分时一般,2/3-4/5用作训练
法2交叉验证法(k折交叉验证)
思想:将D划分为k个大小相近的互斥子集。使用k-1个子集的并集作为训练集,剩下那个 作为试集。
注意:该方法也要进行若干次随机划分。
若进行10级划分,进行10折交叉验证,则会进行10*10次训练
k一般取10,也有5,20
法3自助法
自助采样也称为可重复采样,有放回采样
思想:通过自助采样对数据集D进行采样得到数据集D’,将D’作为训练集,D-D’作为测试集
优点:适用于数据集较小,难以有效划分训练/测试集时
缺点:引入估计偏差
2.2.4调参

性能度量

衡量学习器泛化能力的评价标准称为性能度量
对于回归任务
1.均方误差
对于分类任务
1.错误率和精度
在这里插入图片描述
2.查准率、查全率与F1在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-16 18:49:57  更:2021-11-16 18:50:57 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 6:18:41-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码