[人工智能] 邱锡鹏《神经网络与深度学习》第二章笔记

????????

????????在早期的工程领域，机器学习也经常称为模式识别（ Pattern Recognition， PR ），但模式识别更偏向于具体的应用任务，比如光学字符识别、语音识别、人脸识别等。

1、 基本概念

????????一组样本构成的集合称为数据集（Data Set）。?一般将数据集分为两部分：训练集和测试集．训练集（ Training Set ）中的样本是用来训练模型的，也叫训练样本（ Training Sample ），而测试集（ Test Set ）中的样本是用来检验模型好坏的，也叫测试样本（ Test Sample ）。

我们通常用一个 𝐷 维向量 𝒙 = [𝑥 1 , 𝑥 2 , ? , 𝑥 𝐷 ] T 表示一个芒果的所有特征构成的向量，称为特征向量（ Feature Vector ），其中每一维表示一个特征．而芒果的标签通常用标量 𝑦 来表示。

????????假设训练集 𝒟 由 𝑁 个样本组成，其中每个样本都是独立同分布的（Identically and Independently Distributed ， IID ），即独立地从相同的数据分布中抽取的，记为：

???????????????????????????????????𝒟 = {(𝒙(1), 𝑦(1)), (𝒙(2) , 𝑦 (2) ), ? , (𝒙 (𝑁), 𝑦(𝑁))}????????????????(2.1)

给定训练集𝒟 ，我们希望让计算机从一个函数集合 ? = {𝑓 1 (𝒙), 𝑓 2 (𝒙), ?}中自动寻找一个 “ 最优 ” 的函数 𝑓 ? (𝒙) 来近似每个样本的特征向量 𝒙 和标签 𝑦 之间的真实映射关系．对于一个样本 𝒙 ，我们可以通过函数 𝑓 ? (𝒙) 来预测其标签的值

???????????????????????????????????????????????????????????𝑦 = 𝑓? (𝒙) ???? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2.2)

或标签的条件概率

?????????????????????????????????????????????????????????𝑝(𝑦|𝒙) = 𝑓𝑦? (𝒙)??????????????????????????????????????????(2.3)

????????如何寻找这个“ 最优 ” 的函数 𝑓 ? (𝒙) 是机器学习的关键，一般需要通过学习算法（ Learning Algorithm ）𝒜 来完成．这个寻找过程通常称为学习（ Learning）或训练（ Training ）过程。

计算预测结果的准确率：

?其中𝐼(?)为指示函数，|𝒟′|为测试集大小。

对一个预测任务，输入特征向量为 𝒙 ，输出标签为 𝑦 ，我们选择一个函数集合 ? ，通过学习算法 𝒜 和一组训练样本 𝒟 ，从? 中学习到函数 𝑓 ? (𝒙) ．这样对新的输入 𝒙 ，就可以用函数 𝑓 ? (𝒙) 进行预测。

?2、机器学习三要素

2.1 模型

????????输入空间 𝒳 和输出空间 𝒴 构成了一个样本空间．对于样本空间中的样本 (𝒙, 𝑦) ∈ 𝒳 × 𝒴 ，假定 𝒙 和 𝑦 之间的关系可以通过一个未知的真实映射函数 𝑦 = 𝑔(𝒙) 或真实条件概率分布 𝑝 𝑟 (𝑦|𝒙) 来描述。机器学习的目标是找到一个模型来近似真实映射函数 𝑔(𝒙) 或真实条件概率分布 𝑝 𝑟 (𝑦|𝒙)。?由于我们不知道真实的映射函数 𝑔(𝒙) 或条件概率分布 𝑝 𝑟 (𝑦|𝒙) 的具体形式，因而只能根据经验来假设一个函数集合 ? ，称为假设空间（ Hypothesis Space），然后通过观测其在训练集 𝒟 上的特性，从中选择一个理想的假设（ Hypothesis） 𝑓 ? ∈ ?．

????????假设空间? 通常为一个参数化的函数族

????????????????????????????????????????? = {𝑓(𝒙; 𝜃)|𝜃 ∈ ?𝐷}?????????????????????????????????(2.5)

其中 𝑓(𝒙; 𝜃) 是参数为 𝜃 的函数，也称为模型（ Model ）， 𝐷 为参数的数量．

????????常见的假设空间可以分为线性和非线性两种，对应的模型 𝑓 也分别称为线性模型和非线性模型。

2.1.1 线性模型

????????线性模型的假设空间为一个参数化的线性函数族，即

????????????????????????????????????????𝑓(𝒙; 𝜃) = 𝒘T𝒙 + 𝑏????????????????????????????????????????(2.6)

其中参数 𝜃 包含了权重向量 𝒘 和偏置 𝑏 ．

2.1.2 非线性模型

????????广义的非线性模型可以写为多个非线性基函数 𝜙(𝒙) 的线性组合

????????????????????????????????𝑓(𝒙; 𝜃) = 𝒘T𝜙(𝒙) + 𝑏 ????????????????????????????????????????????????(2.7)

其中 𝜙(𝒙) = [𝜙 1 (𝒙), 𝜙 2 (𝒙), ? , 𝜙 𝐾 (𝒙)]T 为 𝐾 个非线性基函数组成的向量，参数 𝜃

包含了权重向量 𝒘 和偏置𝑏。

????????如果𝜙(𝒙) 本身为可学习的基函数，比如

????????????????????????????????𝜙𝑘(𝒙) = ?(𝒘T𝑘 𝜙′ (𝒙) + 𝑏𝑘), ?1 ≤ 𝑘 ≤ 𝐾????????????????????????(2.8)

其中 ?(?) 为非线性函数， 𝜙 ′ (𝒙) 为另一组基函数， 𝒘 𝑘 和 𝑏 𝑘 为可学习的参数，则

𝑓(𝒙; 𝜃) 就等价于神经网络模型．

2.2 学习准则

????????令训练集 𝒟 = {(𝒙 (𝑛) , 𝑦 (𝑛) )} 𝑁 𝑛=1 是由 𝑁 个独立同分布的（Independent and Identically Distributed ， IID ）样本组成，即每个样本 (𝒙, 𝑦) ∈ 𝒳 × 𝒴 是从 𝒳 和𝒴的联合空间中按照某个未知分布 𝑝 𝑟 (𝒙, 𝑦) 独立地随机产生的．这里要求样本分布𝑝 𝑟 (𝒙, 𝑦) 必须是固定的（虽然可以是未知的），不会随时间而变化．如果 𝑝 𝑟 (𝒙, 𝑦) 本身可变的话，就无法通过这些数据进行学习。

????????一个好的模型 𝑓(𝒙, 𝜃 ? ) 应该在所有 (𝒙, 𝑦) 的可能取值上都与真实映射函数 𝑦 = 𝑔(𝒙) 一致，即

????????????????????????????????????????|𝑓(𝒙, 𝜃? ) ? 𝑦| < 𝜖, ?(𝒙, 𝑦) ∈ 𝒳 × 𝒴????????????????????????????????(2.9)

或与真实条件概率分布 𝑝 𝑟 (𝑦|𝒙) 一致，即

???????????????? ????????????????????????|𝑓𝑦 (𝒙, 𝜃? ) ? 𝑝𝑟 (𝑦|𝒙)| < 𝜖, ?(𝒙, 𝑦) ∈ 𝒳 × 𝒴??????????????????(2.10)

其中 𝜖 是一个很小的正数， 𝑓 𝑦 (𝒙, 𝜃 ? ) 为模型预测的条件概率分布中 𝑦 对应的概率．模型 𝑓(𝒙; 𝜃) 的好坏可以通过期望风险（ Expected Risk ） ?(𝜃) 来衡量，其定义为

?????????????????????????????????????????(𝜃) = 𝔼(𝒙,𝑦)～𝑝𝑟 (𝒙,𝑦)[?(𝑦, 𝑓(𝒙; 𝜃))]????????????????????????????????(2.11)

其中 𝑝 𝑟 (𝒙, 𝑦) 为真实的数据分布， ?(𝑦, 𝑓(𝒙; 𝜃)) 为损失函数，用来量化两个变量之间的差异。

2.2.1 损失函数

损失函数是一个非负实数函数，用来量化模型预测和真实标签之间的差异。

下面介绍几种常用的损失函数：

0-1 损失函数 最直观的损失函数是模型在训练集上的错误率，即 0-1 损失函数（ 0-1 Loss Function ）：

虽然0-1损失函数能够客观地评价模型的好坏，但其缺点是数学性质不是很好：不连续且导数为 0 ，难以优化．因此经常用连续可微的损失函数替代。

平方损失函数

平方损失函数（ Quadratic Loss Function）经常用在预测标签𝑦 为实数值的任务中，定义为

?平方损失函数一般不适用于分类问题。

交叉熵损失函数

交叉熵损失函数（Cross-Entropy Loss Function）一般用于分类问题．假设样本的标签 𝑦 ∈ {1, ? , 𝐶} 为离散的类别，模型 𝑓(𝒙; 𝜃) ∈ [0, 1]𝐶 的输出为类别标签的条件概率分布，即

我们可以用一个𝐶 维的one-hot向量𝒚来表示样本标签。

假设样本的标签为 𝑘，那么标签向量𝒚只有第𝑘维的值为1，其余元素的值都为0。

标签向量𝒚可以看作样本标签的真实条件概率分布𝑝𝑟 (𝒚|𝒙)，即第𝑐维（记为𝑦𝑐，1 ≤ 𝑐 ≤ 𝐶）是类别为 𝑐 的真实条件概率．假设样本的类别为 𝑘，那么它属于第 𝑘 类的概率为 1，属于其他类的概率为0。

Hinge 损失函数 对于二分类问题，假设 𝑦 的取值为 {?1, +1} ， 𝑓(𝒙; 𝜃) ∈ ? ．

Hinge 损失函数（ Hinge Loss Function）为

2.2.2

风险最小化准则

一个好的模型 𝑓(𝒙; 𝜃) 应当有一个比较小的期望错误，但由于不知道真实的数据分布和映射函数，实际上无法计算其期望风险 ?(𝜃)．给定一个训练集 𝒟 = {(𝒙(𝑛) , 𝑦(𝑛))}𝑁 𝑛=1 ，我们可以计算的是

经验风险（Empirical Risk），即在训练集上的平均损失：

这就是经验风险最小化（Empirical Risk Minimization， ERM ）准则。

过拟合

根据大数定理可知，当训练集大小 |𝒟| 趋向于无穷大时，经验风险就趋向于期望风险．然而通常情况下，我们无法获取无限的训练样本，并且训练样本往往是真实数据的一个很小的子集或者包含一定的噪声数据，不能很好地反映全部数据的真实分布．经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高．这就是所谓的过拟合（ Overfitting ）

[人工智能]邱锡鹏《神经网络与深度学习》 第二章 笔记

[人工智能]邱锡鹏《神经网络与深度学习》第二章笔记