[数据结构与算法] 正则化（Regularization）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> 正则化（Regularization） -> 正文阅读

[数据结构与算法]正则化（Regularization）

在前面介绍了线性回归和逻辑回归，他们经常会遇到一个叫做过拟合（overfitting）的问题。
例如前面讲的房价预测例子，用线性回归拟合我们的数据:

在这里插入图片描述

(图1)

如果假设函数 $h_{\bm{\theta}}(\boldsymbol{x})$ （hypothesis function）参数太多，容易形成第 ③ 个曲线的样子。
如果假设函数过于简单，则结果像 ① 那样，欠拟合。

对于逻辑回归的分类问题也是如此：

在这里插入图片描述

(图2)

从图中可以看到，通常在参数较多的时候发生过拟合（最右边的曲线）。
这个时候它会拼命地拟合训练集，并且损失看起来很低。
但是对新的样本泛化能力不强。

处理办法：
(1) 减少选取变量的数量。
??---- 手动选出要删除或保留的特征。（重要的保留，无用的去掉）
??---- 模型算法自动选择。（后面讲）
(2) 正则化。
??---- 所有特征都要，但是降低第 $j$ 个特征的权重 $\theta_j$ 。

看回这个例子：
在这里插入图片描述

(图3)

明显第 ① 条曲线是很优秀的，第 ② 条有点过拟合。

为了改进图 ② ，我们想把 $\theta_3$ $\theta_4$ 干掉，我们在代价函数加上两项蓝色的东西：
$J(\bm{\theta})=\frac{1}{2m} \sum^{m}_{i=1} \left( \; h_{\bm{\theta}}\left(x^i\right)- y^i \;\right)^2 \color{blue}{+ 1000 \, \theta_3^2 + 1000\, \theta_4^2}$

这两个东西会使整个代价函数变得很大。

在拟合参数的时候，为了降低这两个东西对代价函数的影响， $\theta_3$ 和 $\theta_4$ 会尽量变得小，甚至为零。于是就达到了我们的目的： $\theta_3 \approx 0，\theta_4 \approx 0$ ：
在这里插入图片描述
就变得和第 ① 条曲线一样了。

通常的写法是这样：
$J(\bm{\theta})=\frac{1}{2m} \left[ \sum^{m}_{i=1} \left( \; h_{\bm{\theta}}\left(x^i\right)- y^i \;\right)^2 +\color{red}{\lambda \sum^{n}_{j=1} \theta_j^2} \right]\tag{1}$

其中 $\lambda$ 是正则化参数，决定了惩罚的强度。

如果 $\lambda$ 过大，会使所有 $\theta$ 都趋于 $0$ ，最后得到一条欠拟合的直线。
如果 $\lambda$ 太小，就和没有一样。最后还是过拟合。

关于 $\lambda$ 的取值，主要看经验。。。也有一些自动化的取值方法。

在运用梯度下降法的时候，对式子 (1) 第 $j$ 个参数求偏导得到：
$\theta_j := \theta_j - \alpha \left[ \frac{1}{m} \sum^{m}_{i=1} \left( \; h_{\bm{\theta}}\left(x^i\right)- y^i \;\right) x_j^i +\frac{\lambda}{m}\theta_j \right]$
改写一下，把 $\theta_j$ 弄出来：

$\theta_j := \theta_j(1-\alpha \frac{\lambda}{m}) - \alpha \frac{1}{m} \sum^{m}_{i=1} \left( \; h_{\bm{\theta}}\left(x^i\right)- y^i \;\right) x_j^i$

其中 $(1-\alpha \dfrac{\lambda}{m})$ 是很小的数，大概 $0.99$ 的样子，相当于每次更新时先把 $\theta_j$ 缩小一点点，然后再减去梯度。

上面是线性回归的代价函数。

逻辑回归也是一样：
$J(\bm{\theta}) =- \frac{1}{m} \left[ \sum^{m}_{i=1} y^i \cdot \log(h_{\bm{\theta}}(\boldsymbol{x}^i)) + {(1-y^i) \cdot \log(1-h_{\bm{\theta}}(\boldsymbol{x}^i))} \right] +\color{red}{\frac{\lambda}{2m} \sum^{n}_{j=1} \theta_j^2}$

其中红色的部分为新增的正则化项。

对 $\theta_j$ 求偏导得到：
$\theta_j := \theta_j - \alpha \left[ \frac{1}{m} \sum^{m}_{i=1} \left( \; h_{\bm{\theta}}\left(x^i\right)- y^i \;\right) x_j^i +\frac{\lambda}{m}\theta_j \right]$