IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 邱锡鹏《神经网络与深度学习》 第二章 笔记 -> 正文阅读

[人工智能]邱锡鹏《神经网络与深度学习》 第二章 笔记

????????机器学习 Machine Learning ML 就是 让计算机从数据中进 行自动学习 得到某种知识 或规律), 并利用学习到的规律 模型 对未知或无法观测的数据进行预测。
????????
????????在早期的工程领域, 机器学习也经常称为 模式识别 Pattern Recognition, PR ), 但模式识别更偏向于具体的应用任务 比如光学字符识别 语音识别 、人脸 识别等。
1、 基本概念
????????一组样本构成的集合称为 数据集 (Data Set)。?一般将数据集分为两部分: 训练集和测试集 训练集 Training Set 中的样本是用来训练模型的 也叫 训练 样本 Training Sample ), 测试集 Test Set )中的样本是用来检验模型好坏 的 也叫 测试样本 Test Sample )。
我们通常用一个 𝐷 维向量 𝒙 = [𝑥 1 , 𝑥 2 , ? , 𝑥 𝐷 ] T 表示一个芒果的所有特征构 成的向量 称为 特征向量 Feature Vector ), 其中每一维表示一个特征. 而芒果的标签通常用标量 𝑦 来表示。
????????假设训练集 𝒟 𝑁 个样本组成 其中每个样本都是 独立同分布的 (Identically and Independently Distributed IID ),即独立地从相同的数据分布中抽取 的 记为:
???????????????????????????????????𝒟 = {(𝒙(1), 𝑦(1)), (𝒙(2) , 𝑦 (2) ), ? , (𝒙 (𝑁), 𝑦(𝑁))}????????????????(2.1)
给定训练集𝒟 我们希望让计算机从一个函数集合 ? = {𝑓 1 (𝒙), 𝑓 2 (𝒙), ?}中 自动寻找一个 最优 函数 𝑓 ? (𝒙) 来近似每个样本的特征向量 𝒙 和标签 𝑦 之间 的真实映射关系 对于一个样本 𝒙 我们可以通过函数 𝑓 ? (𝒙) 来预测其标签的值
???????????????????????????????????????????????????????????𝑦 = 𝑓? (𝒙) ???? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2.2)
或标签的条件概率
?????????????????????????????????????????????????????????𝑝(𝑦|𝒙) = 𝑓𝑦? (𝒙)??????????????????????????????????????????(2.3)
????????如何寻找这个“ 最优 的函数 𝑓 ? (𝒙) 是机器学习的关键 一般需要通过 学习 算法 Learning Algorithm )𝒜 来完成.这个寻找过程通常称为 学习 Learning)或 训练 Training 过程。
计算预测结 果的准确率:

?其中𝐼(?)为指示函数|𝒟|为测试集大小。

对一个预测任务 输入特征向量为 𝒙 ,输出标签为 𝑦 我们选择一个函数集合 ? 通过学习算法 𝒜 和一组训练样本 𝒟 从? 中学习到函数 𝑓 ? (𝒙) 这样对新的输入 𝒙 就可以用函数 𝑓 ? (𝒙) 进行预测。

?2、机器学习三要素

2.1 模型
????????输入空间 𝒳 和输出空间 𝒴 构成了一个样本空间 .对于样本空间中的样本 (𝒙, 𝑦) ∈ 𝒳 × 𝒴 假定 𝒙 𝑦 之间的关系可以通过一个未知的 真实映射函数 𝑦 = 𝑔(𝒙) 真实条件概率分布 𝑝 𝑟 (𝑦|𝒙) 来描述。机器学习的目标是找到一个模型来近 似真实映射函数 𝑔(𝒙) 或真实条件概率分布 𝑝 𝑟 (𝑦|𝒙)。?由于我们不知道真实的映射函数 𝑔(𝒙) 或条件概率分布 𝑝 𝑟 (𝑦|𝒙) 的具体形式, 因而只能根据经验来假设一个函数集合 ? 称为 假设空间 Hypothesis Space), 然后通过观测其在训练集 𝒟 上的特性 从中选择一个理想的 假设 Hypothesis) 𝑓 ? ∈ ?.
????????假设空间? 通常为一个参数化的函数族
????????????????????????????????????????? = {𝑓(𝒙; 𝜃)|𝜃 ∈ ?𝐷}?????????????????????????????????(2.5)
其中 𝑓(𝒙; 𝜃) 是参数为 𝜃 的函数 也称为 模型 Model ), 𝐷 为参数的数量
????????常见的假设空间可以分为线性和非线性两种, 对应的模型 𝑓 也分别称为线性模型和非线性模型。
2.1.1 线性模型
????????线性模型的假设空间为一个参数化的线性函数族,
????????????????????????????????????????𝑓(𝒙; 𝜃) = 𝒘T𝒙 + 𝑏????????????????????????????????????????(2.6)
其中参数 𝜃 包含了权重向量 𝒘 和偏置 𝑏
2.1.2 非线性模型
????????广义的非线性模型可以写为多个非线性 基函数 𝜙(𝒙) 的线性组合
????????????????????????????????𝑓(𝒙; 𝜃) = 𝒘T𝜙(𝒙) + 𝑏 ????????????????????????????????????????????????(2.7)
其中 𝜙(𝒙) = [𝜙 1 (𝒙), 𝜙 2 (𝒙), ? , 𝜙 𝐾 (𝒙)]T 为 𝐾 个非线性基函数组成的向量 参数 𝜃
包含了权重向量 𝒘 和偏置𝑏。
????????如果𝜙(𝒙) 本身为可学习的基函数 比如
????????????????????????????????𝜙𝑘(𝒙) = ?(𝒘T𝑘 𝜙′ (𝒙) + 𝑏𝑘), ?1 ≤ 𝑘 ≤ 𝐾????????????????????????(2.8)
其中 ?(?) 为非线性函数 𝜙 (𝒙) 为另一组基函数 𝒘 𝑘 𝑏 𝑘 为可学习的参数
𝑓(𝒙; 𝜃) 就等价于 神经网络 模型

2.2 学习准则
????????令训练集 𝒟 = {(𝒙 (𝑛) , 𝑦 (𝑛) )} 𝑁 𝑛=1 是由 𝑁 独立同分布的 (Independent and Identically Distributed IID 样本组成 即每个样本 (𝒙, 𝑦) ∈ 𝒳 × 𝒴 是从 𝒳 和𝒴的联合空间中按照某个未知分布 𝑝 𝑟 (𝒙, 𝑦) 独立地随机产生的 .这里要求样本分布𝑝 𝑟 (𝒙, 𝑦) 必须是固定的 虽然可以是未知的 ), 不会随时间而变化 如果 𝑝 𝑟 (𝒙, 𝑦) 本身可变的话 就无法通过这些数据进行学习。
????????一个好的模型 𝑓(𝒙, 𝜃 ? ) 应该在所有 (𝒙, 𝑦) 的可能取值上都与真实映射函数 𝑦 = 𝑔(𝒙) 一致
????????????????????????????????????????|𝑓(𝒙, 𝜃? ) ? 𝑦| < 𝜖, ?(𝒙, 𝑦) ∈ 𝒳 × 𝒴????????????????????????????????(2.9)
或与真实条件概率分布 𝑝 𝑟 (𝑦|𝒙) 一致
???????????????? ????????????????????????|𝑓𝑦 (𝒙, 𝜃? ) ? 𝑝𝑟 (𝑦|𝒙)| < 𝜖, ?(𝒙, 𝑦) ∈ 𝒳 × 𝒴??????????????????(2.10)
其中 𝜖 是一个很小的正数 𝑓 𝑦 (𝒙, 𝜃 ? ) 为模型预测的条件概率分布中 𝑦 对应的概率. 模型 𝑓(𝒙; 𝜃) 的好坏可以通过 期望风险 Expected Risk ?(𝜃) 来衡量,其定 义为
?????????????????????????????????????????(𝜃) = 𝔼(𝒙,𝑦)~𝑝𝑟 (𝒙,𝑦)[?(𝑦, 𝑓(𝒙; 𝜃))]????????????????????????????????(2.11)
其中 𝑝 𝑟 (𝒙, 𝑦) 为真实的数据分布 ?(𝑦, 𝑓(𝒙; 𝜃)) 为损失函数 ,用来量化两个变量之 间的差异。

2.2.1 损失函数
损失函数是一个非负实数函数 用来量化模型预测和真实标签之间的差异。
下面介绍几种常用的损失函数:
0-1 损失函数 最直观的损失函数是模型在训练集上的错误率 0-1 损失函数 0-1 Loss Function ):

虽然0-1损失函数能够客观地评价模型的好坏,但其缺点是数学性质不是很好 不连续且导数为 0 难以优化 因此经常用连续可微的损失函数替代。
平方损失函数
平方损失函数 Quadratic Loss Function)经常用在预测标签𝑦 为实数值的任务中 定义为

?平方损失函数一般不适用于分类问题。

交叉熵损失函数
交叉熵损失函数 (Cross-Entropy Loss Function)一般用于 分类问题 .假设样本的标签 𝑦 ∈ {1, ? , 𝐶} 为离散的类别,模型 𝑓(𝒙; 𝜃) ∈ [0, 1]𝐶 的输出为类别标签的条件概率分布,即
我们可以用一个𝐶 维的one-hot向量𝒚来表示样本标签。
假设样本的标签为 𝑘,那么标签向量𝒚只有第𝑘维的值为1,其余元素的值都为0。
标签向量𝒚可以看 作样本标签的真实条件概率分布𝑝𝑟 (𝒚|𝒙),即第𝑐维(记为𝑦𝑐,1 ≤ 𝑐 ≤ 𝐶)是类别 为 𝑐 的真实条件概率.假设样本的类别为 𝑘,那么它属于第 𝑘 类的概率为 1,属于 其他类的概率为0。

Hinge 损失函数 对于二分类问题 假设 𝑦 的取值为 {?1, +1} 𝑓(𝒙; 𝜃) ∈ ?
Hinge 损失函数 Hinge Loss Function)为

2.2.2
风险最小化准则
一个好的模型 𝑓(𝒙; 𝜃) 应当有一个比较小的期望错误,但由于不知道真实的 数据分布和映射函数,实际上无法计算其期望风险 ?(𝜃).给定一个训练集 𝒟 = {(𝒙(𝑛) , 𝑦(𝑛))}𝑁 𝑛=1 我们可以计算的是
经验风险 (Empirical Risk),即在训练集上 的平均损失:
这就是 经验风险最小化 (Empirical Risk Minimization, ERM )准则。

过拟合
根据大数定理可知,当训练集大小 |𝒟| 趋向于无穷大时,经验风险就趋向于期望风险. 然而通常情况下,我们无法获取无限的训练样本,并且训练样本 往往是真实数据的一个很小的子集或者包含一定的噪声数据 ,不能很好地反映 全部数据的真实分布 .经验风险最小化原则很容易导致模型在训练集上错误率 很低 但是在未知数据上错误率很高 这就是所谓的 过拟合 Overfitting

????????和过拟合相反的一个概念是 欠拟合 Underfitting ),即模型不能很好地拟 合训练数据 在训练集上的错误率比较高 .欠拟合一般是由于模型能力不足造成 的 2.3 给出了欠拟合和过拟合的示例

2.2.3 优化算法

?

参数与超参数
????????在机器学习中,优化又可以分为参数优化和超参数优化.模型 𝑓(𝒙; 𝜃)中的𝜃 称为模型的参数
,可以通过优化算法进行学习.除了可学习的参数 𝜃 之外,还有一类参数是用来定义模型结构或优化策略的,这类参数叫作 超参数 (Hyper-Parameter)。
????????常见的超参数包括: 聚类算法中的类别个数 梯度下降法中的步长 、正则化 项的系数 神经网络的层数 支持向量机中的核函数等 .超参数的选取一般都是 组合优化问题 很难通过优化算法来自动学习 因此 超参数优化 是机器学习的 一个经验性很强的技术 通常是按照人的经验设定 ,或者通过搜索的方法对一组 超参数组合进行不断试错调整。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-11 18:48:52  更:2021-09-11 18:50:41 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 18:38:29-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码