| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 邱锡鹏《神经网络与深度学习》 第二章 笔记 -> 正文阅读 |
|
[人工智能]邱锡鹏《神经网络与深度学习》 第二章 笔记 |
????????机器学习
(
Machine Learning
,
ML
)
就是
让计算机从数据中进
行自动学习
,
得到某种知识
(
或规律),
并利用学习到的规律
(
模型
)
对未知或无法观测的数据进行预测。
????????
????????在早期的工程领域,
机器学习也经常称为
模式识别
(
Pattern Recognition, PR
),
但模式识别更偏向于具体的应用任务
,
比如光学字符识别
、
语音识别
、人脸 识别等。
1、
基本概念
????????一组样本构成的集合称为
数据集
(Data Set)。?一般将数据集分为两部分: 训练集和测试集
.
训练集
(
Training Set
)
中的样本是用来训练模型的
,
也叫
训练 样本
(
Training Sample
),
而
测试集
(
Test Set
)中的样本是用来检验模型好坏 的
,
也叫
测试样本
(
Test Sample
)。
我们通常用一个
𝐷
维向量
𝒙 = [𝑥
1
, 𝑥
2
, ? , 𝑥
𝐷
]
T 表示一个芒果的所有特征构 成的向量
,
称为
特征向量
(
Feature Vector
),
其中每一维表示一个特征.
而芒果的标签通常用标量
𝑦
来表示。
????????假设训练集 𝒟
由
𝑁
个样本组成
,
其中每个样本都是
独立同分布的
(Identically and Independently Distributed
,
IID
),即独立地从相同的数据分布中抽取 的
,
记为:
???????????????????????????????????𝒟 = {(𝒙(1), 𝑦(1)), (𝒙(2)
, 𝑦
(2)
), ? , (𝒙
(𝑁), 𝑦(𝑁))}????????????????(2.1)
给定训练集𝒟
,
我们希望让计算机从一个函数集合
? = {𝑓
1
(𝒙), 𝑓
2
(𝒙), ?}中 自动寻找一个
“
最优
”
的
函数
𝑓
?
(𝒙)
来近似每个样本的特征向量
𝒙
和标签
𝑦 之间 的真实映射关系
.
对于一个样本
𝒙
,
我们可以通过函数
𝑓
?
(𝒙)
来预测其标签的值
???????????????????????????????????????????????????????????𝑦 = 𝑓? (𝒙) ???? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2.2)
或标签的条件概率
?????????????????????????????????????????????????????????𝑝(𝑦|𝒙) = 𝑓𝑦? (𝒙)??????????????????????????????????????????(2.3)
????????如何寻找这个“
最优
”
的函数
𝑓
?
(𝒙)
是机器学习的关键
,
一般需要通过
学习 算法
(
Learning Algorithm
)𝒜 来完成.这个寻找过程通常称为
学习
(
Learning)或
训练
(
Training
)
过程。
计算预测结 果的准确率:
?其中𝐼(?)为指示函数,|𝒟′|为测试集大小。
对一个预测任务
,
输入特征向量为
𝒙
,输出标签为
𝑦
,
我们选择一个函数集合
?
,
通过学习算法
𝒜
和一组训练样本
𝒟
,
从? 中学习到函数
𝑓
?
(𝒙)
.
这样对新的输入
𝒙
,
就可以用函数
𝑓
?
(𝒙)
进行预测。
?2、机器学习三要素
2.1
模型
????????输入空间 𝒳
和输出空间
𝒴
构成了一个样本空间
.对于样本空间中的样本 (𝒙, 𝑦) ∈ 𝒳 × 𝒴
,
假定
𝒙
和
𝑦
之间的关系可以通过一个未知的
真实映射函数
𝑦 = 𝑔(𝒙)
或
真实条件概率分布
𝑝
𝑟 (𝑦|𝒙) 来描述。机器学习的目标是找到一个模型来近 似真实映射函数
𝑔(𝒙)
或真实条件概率分布
𝑝
𝑟
(𝑦|𝒙)。?由于我们不知道真实的映射函数
𝑔(𝒙)
或条件概率分布
𝑝
𝑟
(𝑦|𝒙)
的具体形式, 因而只能根据经验来假设一个函数集合
?
,
称为
假设空间
(
Hypothesis Space), 然后通过观测其在训练集
𝒟
上的特性
,
从中选择一个理想的
假设
(
Hypothesis) 𝑓
?
∈ ?.
????????假设空间?
通常为一个参数化的函数族
????????????????????????????????????????? = {𝑓(𝒙; 𝜃)|𝜃 ∈ ?𝐷}?????????????????????????????????(2.5)
其中
𝑓(𝒙; 𝜃)
是参数为
𝜃
的函数
,
也称为
模型
(
Model
),
𝐷
为参数的数量
.
????????常见的假设空间可以分为线性和非线性两种,
对应的模型
𝑓 也分别称为线性模型和非线性模型。
2.1.1
线性模型
????????线性模型的假设空间为一个参数化的线性函数族,
即
????????????????????????????????????????𝑓(𝒙; 𝜃) = 𝒘T𝒙 + 𝑏????????????????????????????????????????(2.6)
其中参数
𝜃
包含了权重向量
𝒘
和偏置
𝑏
.
2.1.2
非线性模型
????????广义的非线性模型可以写为多个非线性
基函数
𝜙(𝒙)
的线性组合
????????????????????????????????𝑓(𝒙; 𝜃) = 𝒘T𝜙(𝒙) + 𝑏 ????????????????????????????????????????????????(2.7)
其中
𝜙(𝒙) = [𝜙
1
(𝒙), 𝜙
2
(𝒙), ? , 𝜙
𝐾
(𝒙)]T 为
𝐾
个非线性基函数组成的向量
,
参数
𝜃
包含了权重向量
𝒘
和偏置𝑏。
????????如果𝜙(𝒙)
本身为可学习的基函数
,
比如
????????????????????????????????𝜙𝑘(𝒙) = ?(𝒘T𝑘
𝜙′ (𝒙) + 𝑏𝑘), ?1 ≤ 𝑘 ≤ 𝐾????????????????????????(2.8)
其中
?(?)
为非线性函数
,
𝜙
′
(𝒙)
为另一组基函数
,
𝒘
𝑘
和
𝑏
𝑘
为可学习的参数
,
则
𝑓(𝒙; 𝜃)
就等价于
神经网络
模型
.
2.2
学习准则
????????令训练集 𝒟 = {(𝒙
(𝑛)
, 𝑦
(𝑛)
)}
𝑁 𝑛=1
是由
𝑁
个
独立同分布的
(Independent and Identically Distributed
,
IID
)
样本组成
,
即每个样本
(𝒙, 𝑦) ∈ 𝒳 × 𝒴
是从
𝒳
和𝒴的联合空间中按照某个未知分布
𝑝
𝑟
(𝒙, 𝑦)
独立地随机产生的
.这里要求样本分布𝑝
𝑟
(𝒙, 𝑦)
必须是固定的
(
虽然可以是未知的
),
不会随时间而变化
.
如果
𝑝
𝑟 (𝒙, 𝑦) 本身可变的话
,
就无法通过这些数据进行学习。
????????一个好的模型 𝑓(𝒙, 𝜃
?
)
应该在所有
(𝒙, 𝑦) 的可能取值上都与真实映射函数 𝑦 = 𝑔(𝒙)
一致
,
即
????????????????????????????????????????|𝑓(𝒙, 𝜃? ) ? 𝑦| < 𝜖, ?(𝒙, 𝑦) ∈ 𝒳 × 𝒴????????????????????????????????(2.9)
或与真实条件概率分布
𝑝
𝑟
(𝑦|𝒙)
一致
,
即
????????????????
????????????????????????|𝑓𝑦 (𝒙, 𝜃? ) ? 𝑝𝑟 (𝑦|𝒙)| < 𝜖, ?(𝒙, 𝑦) ∈ 𝒳 × 𝒴??????????????????(2.10)
其中
𝜖
是一个很小的正数
,
𝑓
𝑦
(𝒙, 𝜃
?
)
为模型预测的条件概率分布中
𝑦
对应的概率. 模型
𝑓(𝒙; 𝜃)
的好坏可以通过
期望风险
(
Expected Risk
)
?(𝜃)
来衡量,其定 义为
?????????????????????????????????????????(𝜃) = 𝔼(𝒙,𝑦)~𝑝𝑟 (𝒙,𝑦)[?(𝑦, 𝑓(𝒙; 𝜃))]????????????????????????????????(2.11)
其中
𝑝
𝑟
(𝒙, 𝑦)
为真实的数据分布
,
?(𝑦, 𝑓(𝒙; 𝜃))
为损失函数
,用来量化两个变量之 间的差异。
2.2.1
损失函数
损失函数是一个非负实数函数
,
用来量化模型预测和真实标签之间的差异。
下面介绍几种常用的损失函数:
0-1
损失函数
最直观的损失函数是模型在训练集上的错误率
,
即
0-1 损失函数
(
0-1 Loss Function
):
虽然0-1损失函数能够客观地评价模型的好坏,但其缺点是数学性质不是很好
:
不连续且导数为
0
,
难以优化
.
因此经常用连续可微的损失函数替代。
平方损失函数
平方损失函数
(
Quadratic Loss Function)经常用在预测标签𝑦 为实数值的任务中
,
定义为
?平方损失函数一般不适用于分类问题。
交叉熵损失函数
交叉熵损失函数
(Cross-Entropy Loss Function)一般用于 分类问题
.假设样本的标签 𝑦 ∈ {1, ? , 𝐶} 为离散的类别,模型 𝑓(𝒙; 𝜃) ∈ [0, 1]𝐶 的输出为类别标签的条件概率分布,即
我们可以用一个𝐶 维的one-hot向量𝒚来表示样本标签。
假设样本的标签为 𝑘,那么标签向量𝒚只有第𝑘维的值为1,其余元素的值都为0。
标签向量𝒚可以看 作样本标签的真实条件概率分布𝑝𝑟 (𝒚|𝒙),即第𝑐维(记为𝑦𝑐,1 ≤ 𝑐 ≤ 𝐶)是类别 为 𝑐 的真实条件概率.假设样本的类别为 𝑘,那么它属于第 𝑘 类的概率为 1,属于 其他类的概率为0。
Hinge
损失函数
对于二分类问题
,
假设
𝑦
的取值为
{?1, +1}
,
𝑓(𝒙; 𝜃) ∈ ?
.
Hinge
损失函数
(
Hinge Loss Function)为
2.2.2
风险最小化准则
一个好的模型 𝑓(𝒙; 𝜃) 应当有一个比较小的期望错误,但由于不知道真实的 数据分布和映射函数,实际上无法计算其期望风险 ?(𝜃).给定一个训练集 𝒟 = {(𝒙(𝑛)
, 𝑦(𝑛))}𝑁 𝑛=1
,
我们可以计算的是
经验风险
(Empirical Risk),即在训练集上 的平均损失:
这就是
经验风险最小化
(Empirical Risk Minimization,
ERM
)准则。
过拟合
根据大数定理可知,当训练集大小 |𝒟| 趋向于无穷大时,经验风险就趋向于期望风险. 然而通常情况下,我们无法获取无限的训练样本,并且训练样本 往往是真实数据的一个很小的子集或者包含一定的噪声数据
,不能很好地反映 全部数据的真实分布
.经验风险最小化原则很容易导致模型在训练集上错误率 很低
,
但是在未知数据上错误率很高
.
这就是所谓的
过拟合
(
Overfitting
)
????????和过拟合相反的一个概念是
欠拟合
(
Underfitting
),即模型不能很好地拟 合训练数据
,
在训练集上的错误率比较高
.欠拟合一般是由于模型能力不足造成 的
.
图
2.3
给出了欠拟合和过拟合的示例
2.2.3
优化算法
?
参数与超参数
????????在机器学习中,优化又可以分为参数优化和超参数优化.模型 𝑓(𝒙; 𝜃)中的𝜃
称为模型的参数
,可以通过优化算法进行学习.除了可学习的参数 𝜃 之外,还有一类参数是用来定义模型结构或优化策略的,这类参数叫作
超参数
(Hyper-Parameter)。
????????常见的超参数包括:
聚类算法中的类别个数
、
梯度下降法中的步长
、正则化 项的系数
、
神经网络的层数
、
支持向量机中的核函数等
.超参数的选取一般都是 组合优化问题
,
很难通过优化算法来自动学习
.
因此
,
超参数优化
是机器学习的 一个经验性很强的技术
,
通常是按照人的经验设定
,或者通过搜索的方法对一组 超参数组合进行不断试错调整。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 14:44:05- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |