开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 神经网络与深度学习--读书笔记1 -> 正文阅读

[人工智能]神经网络与深度学习--读书笔记1

本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第2章：机器学习概述 的读书笔记，由于该部分比较基础，只记录一些本人觉得比较值得记录的内容，中间也会包括一些拓展和思考。

机器学习中的损失函数

平方损失函数

适用问题：预测的 label y 为实值时，通常是回归问题
定义：
$L(y,f(x;\theta)) = \frac{1}{2} (y - f(x;\theta))^2$

Note：平方损失函数一般不适用于分类问题

交叉熵损失函数

适用问题：预测的 label y $\in \{1,2,3,\cdots,C\}$ 的离散类型，通常是多分类问题
定义：（详细参见交叉熵）
$L(\boldsymbol y,f(\boldsymbol x;\theta)) = -\boldsymbol y log f(\boldsymbol x; \theta) = -\sum_{c=1}^C y_c log f(\boldsymbol x_c; \theta)$
因为 $\boldsymbol y$ 通常是 one-hot 向量，所以上式直接等价于 $L(\boldsymbol y,f(\boldsymbol x;\theta)) = - log f_y(\boldsymbol x; \theta)$

Hinge 损失函数

适用问题：预测的 label y $\in \{1,-1\}$ 的离散类型，通常是二分类问题
定义：
$L(y,f(\boldsymbol x;\theta)) = max(0, 1- y f(\boldsymbol x; \theta) )$

最大似然估计与平方损失函数

假设真实值 $y$ 与预测值 $f(x;\theta)$ 的关系如下：
$\boldsymbol y = f(\boldsymbol x;\Theta) + \boldsymbol \epsilon$
其中 $\epsilon$ 是误差函数，不失一般性，我们认为其服从正态分布 $\mathcal{N}(\mathop{0} \limits ^{\rightarrow},\sigma^2 I)$ ，那么 $\boldsymbol y$ 应该服从分布 $\mathcal{N}(f(\boldsymbol x;\Theta),\sigma^2 I)$
$\begin{aligned} \Rightarrow \text{argmin} - logP(\boldsymbol y|\boldsymbol x;\Theta) &= \text{argmin} -log\prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y-f(x_i;\theta))^2}{2\sigma^2})\\ &= \text{argmin} -\sum_{i=1}^n -\frac{(y-f(x_i;\theta))^2}{2\sigma^2}\\ &= \text{argmin} \sum_{i=1}^n (y-f(x_i;\theta))^2 \end{aligned}$

因此，当 $\boldsymbol y$ 满足高斯分布时，最大似然估计等价于平方损失函数

最大似然估计与交叉熵

参见最大似然估计与交叉熵

最大似然估计与最大后验估计

最大似然估计：频率学派 观点，认为参数为确定的未知数, 参数估计就是找出未知数的过程
$\hat{\Theta} = \text{argmax} \sum_{i=1}^n log P(x_i; \Theta) = \text{argmin} -\sum_{i=1}^n log P(x_i; \Theta)$
最大后验估计: 贝叶斯 观点，认为参数其实也是随机变量, 服从一定的分布。可以对参数的先验分布进行建模, 并使用观测数据来对参数进行修正, 最后使用修正后的参数分布来进行推断
$\begin{aligned} \hat{\Theta} &= \text{argmax} P(\Theta |x_1, \cdots, x_n)\\ &= \text{argmax} \frac{P(x_1, \cdots, x_n |\Theta) \cdot P(\Theta)}{P(x_1, \cdots, x_n)}\\ &= \text{argmax} \prod_{i=1}^n P(x_i|\Theta)\cdot P(\Theta)\\ &= \text{argmin} -\sum_{i=1}^n logP(x_i|\Theta) - logP(\Theta) \end{aligned}$

综上，最大后验估计是在最大似然估计的基础上加上了参数 $\Theta$ 的先验信息。
1. 如果认为 $\Theta$ 是常值，那么最大后验估计等价于最大似然估计
2. 如果认为 $\Theta$ 服从正态分布 $\mathcal{N}(\mathop{0} \limits ^{\rightarrow},\frac{1}{\lambda}I)$ ，则 $P(\Theta) = log\frac{1}{\sqrt{2\pi \lambda}} - \frac{1}{2}\lambda \Theta^T \Theta$ ，与 $\lambda||\Theta||_2$ 成正比，也就是说最大后验估计 = 最大似然估计 + $L_2$ 正则化
1. 如果认为 $\Theta$ 服从Laplace分布 $\mathcal{Laplace}(\mathop{0} \limits ^{\rightarrow},\frac{1}{\lambda}I)$ ，则 $P(\Theta) = -log \frac{\lambda}{2} exp(-\lambda|\Theta|)$ ，与 $\lambda||\Theta||_1$ 成正比，也就是说最大后验估计 = 最大似然估计 + $L_1$ 正则化

#########################################################################

正则化

关于L2正则化的两点思考

对于线性回归 $f(\boldsymbol x;\boldsymbol w) = \boldsymbol w^T \boldsymbol x$ ，其平方损失： $L(\boldsymbol w)= \frac{1}{2} || \boldsymbol y - \boldsymbol X^T \boldsymbol w ||^2$ ，用最小二乘法可得 $\boldsymbol w$ 的解析解为： $\boldsymbol w = (\boldsymbol X^T \boldsymbol X)^{-1} \boldsymbol X \boldsymbol y$ 。

但这个要求 $\boldsymbol X^T \boldsymbol X$ 可逆阵，而实际使用中，仅仅可逆还不够，如果 $\boldsymbol X^T \boldsymbol X$ 可逆，但有接近于0的特征值，仍会使得数据集 $\boldsymbol X$ 一点点小的扰动就让 $(\boldsymbol X^T \boldsymbol X)^{-1}$ 的值变化很大，为了解决这个问题，有人提出了岭回归，给 $\boldsymbol X^T \boldsymbol X$ 的对角线元素都加上一个常数 $\alpha$ ，使得 $\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I$ 求逆稳定：
$\boldsymbol w = (\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I)^{-1} \boldsymbol X \boldsymbol y$

而上式恰好等价于给平方损失加上L2正则化：
$L(\boldsymbol w) = \frac{1}{2} || \boldsymbol y - \boldsymbol X^T \boldsymbol w ||^2 + \frac{1}{2} \alpha ||\boldsymbol w||^2$

那么我们就知道了L2正则化的第一个作用：L2正则化可以使得求解更稳定！

继续观察 $\boldsymbol w = (\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I)^{-1} \boldsymbol X \boldsymbol y$ ，它可以分解成：
$\begin{aligned} \boldsymbol w &= (\boldsymbol X^T \boldsymbol X + \alpha \boldsymbol I)^{-1} \boldsymbol X^T \boldsymbol X \cdot \hat{\boldsymbol w}\\ &= (\boldsymbol Q^T \Gamma \boldsymbol Q + \alpha \boldsymbol Q^T \boldsymbol Q) ^{-1} \boldsymbol Q^T \Gamma \boldsymbol Q \cdot \hat{\boldsymbol w}\\ &= (\Gamma \boldsymbol Q+ \alpha \boldsymbol Q) ^{-1} \Gamma \boldsymbol Q \cdot \hat{\boldsymbol w}\\ &= \boldsymbol Q^{-1} (\Gamma + \alpha \boldsymbol I)^{-1} \Gamma \boldsymbol Q \cdot \hat{\boldsymbol w}\\ &= \boldsymbol Q^T (\Gamma + \alpha \boldsymbol I)^{-1} \Gamma \boldsymbol Q \cdot \hat{\boldsymbol w} \end{aligned}$
其中 $\hat{\boldsymbol w} = (\boldsymbol X^T \boldsymbol X)^{-1} \boldsymbol X \boldsymbol y$ 是原始没有加L2正则化时的解。

假如 $\lambda_i$ 是 $\boldsymbol X^T \boldsymbol X = \boldsymbol Q^T \Gamma \boldsymbol Q$ 的特征值，那么 $\frac{\lambda_i}{\lambda_i + \alpha}$ 就是 $\boldsymbol Q^T (\Gamma + \alpha \boldsymbol I)^{-1} \Gamma \boldsymbol Q$ 的特征值。
$\Rightarrow (\boldsymbol Q \boldsymbol w)_i = \frac{\lambda_i}{\lambda_i + \alpha} (\boldsymbol Q \hat{\boldsymbol w})_i$

也就是说：在变换 $\boldsymbol Q$ 下， $\boldsymbol w_i$ 相对于 $\hat{\boldsymbol w_i}$ 都变小了，而且变小的强度跟 $\lambda_i$ 成反比。

由于这里 $\frac{L(\hat{\boldsymbol w})}{\partial^2 \hat{\boldsymbol w}} = \boldsymbol X^T \boldsymbol X$ ，因此 $\boldsymbol X^T \boldsymbol X$ 是损失函数 $L(\boldsymbol w)$ 的海森阵，反映的是损失函数 $L(\hat{\boldsymbol w})$ 的凸性， $\lambda_i$ 越大，表示凸性越强。再结合上面的结果，我们可以得到L2正则化的第二个作用：

在正交变换 $\boldsymbol Q$ 下，削减 $\hat{\boldsymbol w}$ 各方向上的权值，削减比例由损失函数 $L(\hat{\boldsymbol w})$ 在这个方向的凸性决定：
凸性越强， $\lambda_i$ 越大，说明这个方向上 $\hat{\boldsymbol w}$ 的变化对 $L(\hat{\boldsymbol w})$ 影响大，那么这个方向上对 $\hat{\boldsymbol w}$ 的削减就小
反之凸性越弱， $\lambda_i$ 越小，说明这个方向上 $\hat{\boldsymbol w}$ 的变化对 $L(\hat{\boldsymbol w})$ 影响小，那么这个方向上对 $\hat{\boldsymbol w}$ 的削减就大

#########################################################################

机器学习中评价指标

精确率和召回率

对于分类模型，假如有 $C$ 个类别，那么对于任意类别 $c$ ，有：

真正例(TP)：样本真实类别为 $c$ ，并且模型也预测为 $c$ 的数量：
$TP_c = \sum_{i=1}^n \boldsymbol I(y_i = \hat{y_i} = c)$
假负例(FN)：样本真实类别为 $c$ ，但是模型将它预测为其他类别的数量：
$FN_c = \sum_{i=1}^n \boldsymbol I(y_i = c \cap \hat{y_i} \neq c)$
假正例(FP)：样本真实类别为其他类别，但是模型将它预测为 $c$ 的数量：
$FP_c = \sum_{i=1}^n \boldsymbol I(y_i \neq c \cap \hat{y_i} = c)$
真负例(TN)：样本真实类别为其他类别，并且模型也将它预测为其他类别的数量，对类别 $c$ 来说，这种情况一般不需要关注。

精确率，也叫查准率，类别 $c$ 的查准率是所有预测为类别 $c$ 的样本中预测正确的比例:
$\mathcal{P_c} = \frac{TP_c}{TP_c+FP_c}$

召回率，也叫查全率，类别 $c$ 的查全率是所有真实标签为类别 $c$ 的样本中预测正确的比例:
$\mathcal{R_c} = \frac{TP_c}{TP_c+FN_c}$

F1 score，是一个综合指标，为精确率和召回率的调和平均：
$\mathcal{F_c} = \frac{2*\mathcal{P_c}\mathcal{R_c}}{\mathcal{P_c}+\mathcal{R_c}}$

计算分类算法在所有类别上的总体精确率，召回率和F1 score：
$\begin{aligned} \mathcal{P} &= \frac{1}{C}\sum_{c=1}^C \mathcal{P_c}\\ \mathcal{R} &= \frac{1}{C}\sum_{c=1}^C \mathcal{R_c}\\ \mathcal{F} &= \frac{2*\mathcal{P}\mathcal{R}}{\mathcal{P}+\mathcal{R}} \end{aligned}$

交叉验证

交叉验证（Cross-Validation）是一种比较好的衡量机器学习模型的统计分析方法，可以有效避免划分训练集和测试集时的随机性对评价结果造成的影响．我们可以把原始数据集平均分为 $K$ 组不重复的子集，每次选 $K ? 1$ 组子集作为训练集，剩下的一组子集作为验证集．这样可以进行 $K$ 次试验并得到 $K$ 个模型，将这 $K$ 个模型在各自验证集上的错误率的平均作为分类器的评价．