开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【学习笔记】深刻理解L1和L2正则化 -> 正文阅读

[人工智能]【学习笔记】深刻理解L1和L2正则化

深刻理解L1和L2正则化

学习视频：BV1Z44y147xA、BV1gf4y1c7Gg、BV1fR4y177jP

up主：王木头学科学

L1、L2正则化即使用L1、L2范数来规范模型参数。

凡是减少泛化误差，而不是减少训练误差的方法，都可以称为正则化方法。

通俗来说，即凡是能减少过拟合的方法，都是正则化方法。

补充概念

范数

可以理解为把空间中两个点的距离这个概念给拓展。

如权重W为一个高维的向量，或高维空间中的一个点。这个点到原点的距离

若为欧式距离，则为L2范数，其公式和图像如下：

L2范数图像

即使用高维的勾股定理计算距离。如果将L2范数相同的点都画出来，则会形成一个以原点为圆心，半径为L2范数的圆。

若为曼哈顿距离，即对坐标值直接取绝对值，则为L1范数，其公式和图像如下：

L1范数图像

将L1范数相同的点画出来，组成的图形为一个中心在原点且偏转45°的正方形。

在正则化中，通常只用到L1、L2范数，但还有其他范数，如Lp范数。

当 0<p<1 时，得到的集合为非凸集；当 p>=1时，得到的集合才是凸集。

Lp范数

凸集

参考【学习笔记】直观理解拉格朗日函数中内容。

黑塞（Hessian）矩阵

黑塞矩阵（Hessian Matrix），又译作海森矩阵、海瑟矩阵、海塞矩阵等，是一个多元函数的二阶偏导数构成的方阵，描述了函数的局部曲率。黑塞矩阵常用于牛顿法解决优化问题，利用黑塞矩阵可判定多元函数的极值问题。在工程实际问题的优化设计中，所列的目标函数往往很复杂，为了使问题简化，常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数，此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。

黑塞矩阵

为什么我们要引入L1、L2正则化？

我们知道，通过训练迭代，一定能找到一组 $W$ 和 $b$ 使得输出层的损失函数最小。但就算我们得到的损失值是相同的，其对应的 $W$ 和 $b$ 也并不是唯一的，以下图为例：

如果我们将隐藏层中的系数都增加到原来的两倍，则最后相当于输入层的输入里的变量系数增加了 $2^{l-1}$ 倍，我们同时将 $W$ 缩小 $2^{ll-1}$ 倍，最后的结果依然是 $z^{[l]}$ ，其对应的损失函数的值是不变的。

这就代表我们训练出来的 $W$ 和 $b$ 的值非常依赖于他们的初始值。如果初始值较大，则最后达到损失函数最小值得出来的 $W$ 和 $b$ 的值较大；而另一种情况，在损失函数收敛到相同的最小值时，可能得到的 $W$ 和 $b$ 的绝对值相对来说较小。

如果我们得到的参数较大，那么神经网络在面对新数据时，将会得到一个较大的结果。新数据中的误差和噪声经过大参数相乘以后将会被放大，这会严重影响最后的判断结果。所以我们才要将参数限定在一定的范围内。

由于神经网络模型主要由权重 $W$ 所影响，所以正则化只关注权重而不关注偏置 $b$ 。

拉格朗日乘数法角度

限制权重 $W$ 的范围相当于是给参数规定可行域范围，而这正是拉格朗日乘数法所擅长的。

红色的 $L(W,\lambda)$ 是我们熟知的L2正则化的公式。由于绿色的 $L(W,\lambda)$ 和红色的 $L(W,\lambda)$ 二者求梯度相同且需等于0，我们根据此来求 $W$ 的值。虽然二者的最值可能不同（红色 $\lambda)$ 不一定等于绿色 $L(W,\lambda)$ ），但是得到的参数 $W$ 却是相同的。

所以 L2 正则化和用拉格朗日乘数法给 $W$ 加一个约束范围这两个问题是等价的。

直观理解，两个公式中的 $C$ 即代表相同 L2 范数到原点的距离，即绿色圆的半径。可是在红色的 $L(W,\lambda)$ 中我们消去了 $C$ ，那么该如何控制绿色圆的半径呢？

答案就是通过 $\lambda$ 来调节约束条件梯度的大小与方向，使得其与损失函数的梯度大小相等、方向相反，这样他们相加才能等于0，得到最后一行的公式，亦可知
$\lambda = \frac{损失函数的梯度} {约束条件的梯度}$
得到了 $\lambda$ ，就可以确定具体的极值点在哪里。

由图像我们可以直观的看出，L1正则化的极值点多在坐标轴上，这也是L1正则化带来稀疏性的体现，在数值上，即 $W$ 在某些项有值，而其他项均为0；在特征上，他将特征与特征之间的关系进行解耦，使得只有特定的特征起作用，让问题简化，减少了过拟合的可能。

在神经网络中，最值不一定是一个点，而可能是一条路径。只要最终我们收敛在这条路径上任何一个点，都算是达到最值点了。

权重衰退角度

在训练过程中，我们依靠梯度下降法对权重进行更新。引入正则化后，损失函数加入正则项 $\frac{\alpha}{2} W^TW$ （其与 $\lambda \Vert W \Vert_2$ 等价），在梯度更新中也加入了正则项的梯度 $\eta \cdot \alpha \cdot W$ ，经过调整后得到红色框中的式子。

根据权重 $W$ 的系数 $(1-\eta \cdot \alpha)$ 可以看出，在学习率和 $\alpha$ 两个超参数相乘大于0小于1时，权重 $W$ 在每次更新时，都会进行缩小，这便是权重衰减。

这时我们再去理解这两个式子，式(1)中 $C$ 为超参数，相当于我们已经知道权重在哪个范围内取值比较好；

式(2)中 $\alpha$ 为超参数，相当于我们不知道权重在哪个范围内取值较好，而是设定像学习率一样的衰减率，通过不断训练，一步一步学习，最后找到一个合适的范围。

总之，权重衰减即增加了一个惩罚项，在每次学习过程中不断惩罚权重，以保证权重不会取值太大。

L2正则化

L2正则化相对来说简单一些，我们先以它为例。

损失函数 $J (W)$ 经过泰勒展开得到第一行的式子。

其中 $H$ 为黑塞矩阵，代表损失函数的二阶导数。 $W^*$ 为损失函数的最值，故 $\nabla_W J(W^*) = 0$ 。

针对这个公式：
$\nabla_w \hat J(W) = H(W-W^*)+\alpha \cdot W$
假设 $W=\hat W$ 时，达到正则化后的损失函数的最值，即 $\nabla_w \hat J(\hat W) = 0$ ，则可推出：

对于 $W^*$ 前的系数 $(H+\alpha \cdot I)^{-1}H$ 我们还需要进行变换，这里需要用到黑塞矩阵的性质。由于黑塞矩阵是对称矩阵，而所有对称矩阵都可以表示为 $Q\Lambda Q^T$ ，其中 $\Lambda$ 是对角矩阵，而 $Q$ 是正交基矩阵，即
$\Lambda = \begin{bmatrix} \lambda_1 & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_n \end{bmatrix} \\ Q = \begin{bmatrix} e_1 & 0 & \cdots & 0 \\ 0 & e_2 & \cdots & 0 \\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & e_n\end{bmatrix} \\ Q^T = Q^{-1} \Rightarrow Q^TQ = QQ^T = I$