开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Java知识库 -> 李宏毅 Machine Learning 2020 Spring - Regression -> 正文阅读

[Java知识库]李宏毅 Machine Learning 2020 Spring - Regression

李宏毅 Machine Learning 2020 Spring - Introduction

\qquad

我们今天要讲的是

R e g r e s s i o n

，等一下我会举一个例子来讲

R e g r e s s i o n

是怎么做的。顺便引出一些

Machine\ Learning

里面常见的重要概念。

1. Regression 可以做什么？

$\qquad$ 除了我们作业里面要大家做的预测 PM2.5 这个任务以外，还有很多其他非常有用的 $t a s k$ 。
$\qquad$ 举例来说，如果你可以做一个股票预测的系统，你要做的事情就是：找一个 $f u n c t i o n$ ，这个 $f u n c t i o n$ 的 $i n p u t$ 可能是过去十年各种股票起伏的资料，或者是 $A$ 公司并购 $B$ 公司， $B$ 公司并购 $C$ 公司等等的资料。你希望这个 $f u n c t i o n$ 在 $i n p u t$ 这些资料以后，它的 $o u t p u t$ 是，明天的道琼斯工业平均指数的点数。如果你可以预测这个的话，你就发了。
在这里插入图片描述
$\qquad$ 还有别的 $t a s k$ ，比如说现在很热门的无人车，自动车，这个无人车也可以想成是一个 $R e g r e s s i o n$ 的 $p r o b l e m$ ，在这个 $R e g r e s s i o n$ 的 $p r o b l e m$ 里面， $i n p u t$ 就是你的无人车所看到的各种 $s e n s o r$ ：它的红外线感测的 $s e n s o r$ ，它的影像的视讯的镜头所看到的马路上的东西等等。你的 $i n p u t$ 就是这些 $i n f o r m a t i o n$ ， $o u t p u t$ 就是方向盘的角度。比如说，要左转 $50$ 度，要右转 $50$ 度（左转负 $50$ 度），所以 $o u t p u t$ 也是一个 $s c a l a r$ 。所以无人车驾驶就是一个 $Regression\ Problem$ 。
在这里插入图片描述
$\qquad$ 或者是，你可以做推荐系统。我们都知道说， $Y o u T u b e$ 要推荐影片或者 $A m a z o n$ 要推荐商品给你，那推荐系统他要做的事情，也可以想成是一个 $R e g r e s s i o n$ 的问题。就是找一个 $f u n c t i o n$ ，它的 $i n p u t$ 是某一个使用者 $A$ 和某一个商品 $B$ ，它的 $o u t p u t$ 就是使用者 $A$ 购买商品 $B$ 的可能性。如果你可以找到这样一个 $f u n c t i o n$ ，它可以精确的预测使用者 $A$ 购买商品 $B$ 的可能性的话，那 $A m a z o n$ 就会推荐使用者 $A$ 他最有可能购买的商品。
在这里插入图片描述
$\qquad$ 这个是 $R e g r e s s i o n$ 的种种应用。今天我要讲的是，另外一个我觉得更实用的应用。就是预测宝可梦的CP值。

2. 引入问题：预测宝可梦的 CP 值

在这里插入图片描述
$\qquad$ CP 值就是一只宝可梦的战斗力，你抓到一只宝可梦以后，比如说这个是一只妙蛙种子，然后你给他吃一些星辰或糖果以后，他就会进化成妙蛙草，而如果他进化成妙蛙草以后，他的 CP 值就变了。

$\qquad$ 为什么我们会希望能够预测宝可梦的 CP 值呢？因为如果你可以精确的预测一只宝可梦在进化以后的 CP 值的话，你就可以说，你是否要进化这只宝可梦。如果他是一只 CP 值比较低的宝可梦的话，你可能就把他拿去做糖果，你就不进化他，这样你就可以节省一些你的糖果的资源。你可能就会问，为什么我们要节省糖果的资源？因为你这样可以在比较段时间内，就进化比较多强的宝可梦。你就会想说为什么我们要比较强的宝可梦？因为他可以去打道馆。
$\qquad$ 今天我们要做的事情就是找一个 $f u n c t i o n$ ，这个 $f u n c t i o n$ 的 $i n p u t$ 就是某一只宝可梦，它的 $o u t p u t$ 就是这只宝可梦如果我们把它进化以后，它的 CP 值的数值是多少。
$\qquad$ 这是一个 $R e g r e s s i o n$ 的 $p r o b l e m$ ，我们的 $i n p u t$ 就是某一只宝可梦所有相关的 $i n f o r m a t i o n$ ，比如说，我们把一只宝可梦用 $x$ 表示，它的 CP 值我们就用 $x_{cp}$ 来表示。我们用下标来表示某一个完整东西里面的某一个 $c o m p o n e n t$ 。

$x_{cp}$ 代表某一只宝可梦 $x$ 它在进化前的 CP 值。比如说，这个妙蛙种子的 $x_{cp}$ 值是 $14$ 。
$x_{s}$ 代表这一只宝可梦 $x$ 是属于哪一个物种。比如说，这个妙蛙种子的 $x_{s}$ 值是 $B u l b a s a u r$ 。
$x_{hp}$ 代表这一只宝可梦 $x$ 它的生命值。比如说，这个妙蛙种子的 $x_{hp}$ 值是 $10$ 。
$x_{w}$ 代表这一只宝可梦 $x$ 它的重量。比如说，这个妙蛙种子的 $x_{w}$ 值是 $11.62 k g$ 。
$x_{h}$ 代表这一只宝可梦 $x$ 它的高度。比如说，这个妙蛙种子的 $x_{h}$ 值是 $0.88 m$ 。
$\qquad$ 这个 $f u n c t i o n$ 的 $o u t p u t$ 就是这只宝可梦进化后的 CP 值，它是一个数值，就是一个 $s c a l a r$ ，我们把它用 $y$ 来表示。

3. 解决问题：预测宝可梦的 CP 值

$\qquad$ 我们第一堂课就讲过说，做 $machine\ learning$ 就是三个步骤：第一个步骤是找一个 $m o d e l$ ，也就是 $function\ set$ ；第二个步骤是定义 $function\ set$ 里面某一个 $f u n c t i o n$ ，然后 $e v a l u a t e$ 它的好坏；第三个步骤就是找一个最好的 $f u n c t i o n$ 。

3.1 第一步：model

$\qquad$ 首先，我们从第一个步骤开始，我们要找一个 $function\ set$ ，这个 $function\ set$ 就是所谓的 $m o d e l$ 。在这个 $t a s k$ 里面，我们的 $function\ set$ 应该长什么样子呢？
$\qquad$ 我们首先写一个简单的 $y=b+w\cdot x_{cp}$ ，我们认为说进化后的 CP 值 $y$ 等于某一个常数项 $b$ 加上某一个数值 $w$ 乘上现在输入的宝可梦的 $x$ 它在进化前的 CP 值 $x_{cp}$ 。 $w$ 和 $b$ 是参数，可以是任意的数值，填充不同的 $w$ 和 $b$ 就可以得到不同的 $function\ \{f_1、f_2、\cdots\}$ 。使用 $y=b+w\cdot x_{cp}$ 代表这些不同 $f u n c t i o n$ 的集合。我们等一下要用 $training\ data$ 来告诉我们说，在这个 $function\ set$ 里面，哪一个 $f u n c t i o n$ 才是合理的 $f u n c t i o n$ 。
$\qquad y=b+w\cdot x_{cp}$ 这样的 $m o d e l$ 是一种 $l i n e a r$ 的 $m o d e l$ ，所谓 $l i n e a r$ 的 $m o d e l$ 的意思是，如果我们可以把一个 $f u n c t i o n$ 写成 $y=b+\displaystyle \sum w_i\cdot x_i$ ，那它就是一个 $l i n e a r$ 的 $f u n c t i o n$ 。 $x_i$ 指的是 $i n p u t$ 的 $x$ 的各种 $a t t r i b u t e$ ，这些从 $i n p u t$ 的 $o b j e c t$ 里面抽出来的各种数值当作 $f u n c t i o n$ 的 $i n p u t$ ，这些东西叫做 $f e a t u r e$ 。这个 $w_i$ 叫做 $w e i g h t$ ， $b$ 叫做 $b i a s$ 。
在这里插入图片描述

3.2 第二步：Goodness of Function

1. 收集 training data

$\qquad$ 接下来我们要收集 $training\ data$ ，才能够找这个 $f u n c t i o n$ 。这是一个 $supervised\ learning$ 的 $t a s k$ ，所以我们收集的是 $f u n c t i o n$ 的 $i n p u t$ 和 $f u n c t i o n$ 的 $o u t p u t$ 。因为是 $r e g r e s s i o n$ 的 $t a s k$ ，所以 $f u n c t i o n$ 的 $o u t p u t$ 是一个数值。
$\qquad$ 举例来说，你抓了一只杰尼龟，进化之后是卡咪龟。那么 $f u n c t i o n$ 的 $i n p u t$ 就是这只杰尼龟，我们用 $x^1$ 表示，我们用上标来表示一个完整的 $o b j e c t$ 的编号。这只杰尼龟进化之后的 CP 值是 979，所以我们 $f u n c t i o n$ 的 $o u t p u t$ 是 979，那这个 979 我们就用 $\hat{y}^1$ 来代表。由于 $r e g r e s s i o n$ 的 $o u t p u t$ 是 $s c a l a r$ ，因此 $\hat{y}^1$ 里面并没有 $c o m p o n e n t$ ，只是一个简单的数值。但是未来如果考虑 $Structured\ Learning$ 的时候，我们 $o u t p u t$ 的 $o b j e c t$ 可能是有 $s t r u c t u r e$ 的，所以我们还是需要用上标下标来表示一个完整的 $o u t p u t$ 的 $o b j e c t$ 和它包含的 $c o m p o n e n t$ 。
在这里插入图片描述
$\qquad$ 我们收集了 10 只宝可梦，这 10 只宝可梦编号从 $x^1$ 到 $x^{10}$ ，进化后的 CP 值从 $\hat{y}^1$ 到 $\hat{y}^{10}$ 。我们将这 10 只宝可梦的 $i n f o r m a t i o n$ 画出来，这个图上每一个蓝色的点代表一只宝可梦， $x$ 轴代表这一只宝可梦的原始 CP 值 $x_{cp}$ ， $y$ 轴代表进化后的 CP 值 $\hat{y}$ 。
在这里插入图片描述

2. 评估 function

（1）Loss function 损失函数

$\qquad$ 有了这些 $training\ data$ 以后，我们就可以定义一个 $f u n c t i o n$ 的好坏。如何定义一个 $f u n c t i o n$ 的好坏呢？我们需要定义另外一个 $f u n c t i o n$ ，叫做 $Loss\ function$ ，写成 $L$ 。 $Loss\ function$ 的 $i n p u t$ 是一个很特别的 $f u n c t i o n$ ， $Loss\ function$ 是一个 $f u n c t i o n$ 的 $f u n c t i o n$ 。 $Loss\ function$ 的 $o u t p u t$ 是一个数值告诉我们说现在 $i n p u t$ 的这个 $f u n c t i o n$ 他有多不好。可以写成： $L (f) = L (w, b)$ ，可以说 $Loss\ function$ 是在衡量一组参数的好坏。
$\qquad$ 那怎么定这个 $Loss\ function$ 呢？我们使用比较常见的作法：将 $i n p u t$ 的 $w$ 和 $b$ 实际地代入 $y=b+w\cdot x_{cp}$ 这个 $f u n c t i o n$ 里面，就可以得到预测值 $y$ 。我们将真正的数值 $\hat{y}$ 减去预测的数值 $y$ ，再取平方，这就是估测的误差。我们再将 $training\ data$ 的所有估测误差合起来就得到 $Loss\ function$ 。如果我使用某一个 $f u n c t i o n$ ，它给我们的估测误差越大，那当然这个 $f u n c t i o n$ 就越不好。
在这里插入图片描述

（2）可视化损失函数

$\qquad$ 再来我们有了这个 $Loss\ function$ 以后，我们可以将 $Loss\ function$ 的形状画出来，使用 $L (w, b)$ 对 $w$ 和 $b$ 作图，在图上的每一个点就代表一组 $w$ 和 $b$ ，也就是某一个 $f u n c t i o n$ 。颜色代表了 $f u n c t i o n$ 有多不好，颜色越红代表 $l o s s$ 越大， $f u n c t i o n$ 越不好；颜色越蓝代表 $l o s s$ 越小， $f u n c t i o n$ 越好。比如：图中用红色箭头标注的点就代表了 $b = ? 180, w = ? 2$ 对应的 $f u n c t i o n$ ，即 $2\cdot x_{cp}$ ，该点所在的颜色偏向于红色区域，因此这个 $f u n c t i o n$ 的 $l o s s$ 比较大，表现并不好。
在这里插入图片描述

3.3 第三步：最优 function

$\qquad$ 我们已经定好了我们的 $Loss\ function$ ，可以衡量我们的 $m o d e l$ 里面每一个 $f u n c t i o n$ 的好坏。接下来我们要做的事情就是从这个 $function\ set$ 里面挑选一个最好的 $f u n c t i o n$ 。写成 $f o r m u l a t i o n / e q u a t i o n$ ： $\displaystyle f^*=arg\underset {f}{min}L(f)$ 或 $\displaystyle w^*,b^*=arg\underset {w,b}{min}L(w,b)=arg\underset {w,b}{min}\sum^{10}_{n=1}{(\hat{y}^n-(b+w\cdot x_{cp}^n))^2}$ 。利用线性代数可以解得这个 $f o r m u l a t i o n / e q u a t i o n$ 的 $closed-form\ solution$ ，但我们要教你另外一个做法，这个做法叫做 $gradient\ descent$ 。
在这里插入图片描述

3.3.1 gradient descent（梯度下降法）

$\qquad$ 这边要强调一下 $gradient\ descent$ 不是只适用于解这一个 $f u n c t i o n$ ，只要 $L$ 是可微分的，不管是什么 $f u n c t i o n$ ， $gradient\ descent$ 都可以拿来处理这个 $f u n c t i o n$ ，都可以帮你找到表现比较好的 $f u n c t i o n$ 或者是参数。我们来看一下 $gradient\ descent$ 是怎么做的？

1. 简单 task（单参数问题）

$\qquad$ 我们先假设一个比较简单的 $t a s k$ ， $Loss\ function$ 只有一个参数 $w$ ，求解： $\displaystyle w^*=arg\underset {w}{min}L(w)$ 。

步骤1：随机选取一个初始的点。比如：随机选取 $w^0$ 。
步骤2：计算在 $w=w^0$ 这个位置，参数 $w$ 对 $Loss\ function$ 的微分，即 $\displaystyle \frac{dL}{dw}|_{w=w^0}$ 。在 $w=w^0$ 处微分的几何意义是切线斜率。
$\qquad$ 如果切线斜率是负的，显然从图上可以看到 $w^0$ 左边的 $l o s s$ 是比较高的，右边的 $l o s s$ 是比较低的，那我们要找 $l o s s$ 比较低的 $f u n c t i o n$ ，所以应该增加 $w$ 的值。
$\qquad$ 反之，如果切线斜率是正的，代表与图中虚线反向，也就是右边高左边低的话，那显然应该减少 $w$ 的值，把我们的参数往左边移动。

$\qquad$ 在我们这个示例中， $w$ 值是要增加的，那怎么增加呢？要增加多少呢？这边的增加量我们写成： $\displaystyle -\eta\frac{dL}{dw}|_{w=w^0}$ 。 $w$ 的增加量，我们也称作步长 $step\ size$ ，踏一步的 $step\ size$ 取决于两件事：第一，取决于现在的微分值 $\displaystyle \frac{dL}{dw}$ 有多大。如果微分值越大，代表 $w$ 点现在在一个越陡峭的地方，那它的移动距离就越大，反之越小。第二，取决于一个常数项 $\eta$ 。这个常数项 $\eta$ 被称作 $learning\ rate$ （学习率），这个 $learning\ rate$ 决定说我们今天踏一步不只是取决于我们现在微分值算出来有多大，还取决于我们一个事先就定好的数值。如果这个事先定好的数值你给它定大一点的话，那今天踏出一步的时候，参数更新的幅度就比较大，反之更新幅度就比较小。如果参数更新的幅度比较大的话， $learning\ rate$ 设定大一点的话，那学习的效率，学习的速度就比较快。因为 $\displaystyle \frac{dL}{dw}|_{w=w^0}$ 这一项的微分值与参数增加减少是反向的，所以我们前面需要乘以一个负号，因此 $w^0$ 踏一步变成 $w^1$ 可以表示为： $\displaystyle w^0- \eta\frac{dL}{dw}|_{w=w^0} \rightarrow w^1$ 。
步骤3：重复步骤2，计算 $w=w^1$ 这个位置所算出来的微分值 $\displaystyle \frac{dL}{dw}|_{w=w^1}$ 。假设 $w^1$ 处的微分值如下图所示，这个微分值仍然建议我们应该往右移动我们的参数，只是现在移动的幅度可能是比较小的，因为 $w^1$ 处的微分值相较于前面 $w^0$ 这一项是比较小的。那么 $\displaystyle w^1- \eta\frac{dL}{dw}|_{w=w^1}$ 就变成了 $w^2$ 。

$\qquad$ 那这个步骤就反复不断的执行下去。经过非常非常多的 $i t e r a t i o n$ 后，经历非常多次的参数更新以后，假设经过 $T$ 次的更新，这个 $T$ 是一个非常大的数字，最后你会到一个 $local\ minima$ 的地方 $w^T$ 。所谓 $local\ minima$ 的地方，就是这个地方的微分是 0，所以你接下来算出的微分都是 0 了，所以你的参数接下来就会卡在这边，就没有办法再更新了。这件事情你可能会觉得不太高兴，因为 $w^T$ 的右侧有一个 $global\ minima$ ，你使用 $gradient\ descent$ 找出来的 $s o l u t i o n$ ，你找出来的参数，它其实不是最佳解。但幸运的是，这件事情在 $r e g r e s s i o n$ 上不是一个问题，因为在 $linear\ regression$ 上是没有 $local\ minima$ 的。

2. 两个参数 w,b 问题

$\qquad$ 我们今天真正要处理的事情，是有两个参数的问题，也就是 $w$ 和 $b$ 。从一个参数推广到两个参数，其实是没有任何不同的。

步骤1：随机选取两个初始值， $w^0$ 和 $b^0$ 。
步骤2：计算 $\displaystyle \frac{\partial L}{\partial w}|_{w=w^0,b=b^0}$ ， $\displaystyle \frac{\partial L}{\partial b}|_{w=w^0,b=b^0}$ ，计算出这两个偏微分以后，就分别去更新 $w^0$ 和 $b^0$ 这两个参数： $\displaystyle w^0- \eta\frac{\partial L}{\partial w}|_{w=w^0,b=b^0} \Rightarrow w^1$ ， $\displaystyle b^0- \eta\frac{\partial L}{\partial b}|_{w=w^0,b=b^0} \Rightarrow b^1$ 。
步骤3：重复步骤2，计算 $w=w^1$ ， $b=b^1$ 这个位置所算出来的微分值： $\displaystyle \frac{\partial L}{\partial w}|_{w=w^1,b=b^1}$ ， $\displaystyle \frac{\partial L}{\partial b}|_{w=w^1,b=b^1}$ ，然后对参数 $w$ 和 $b$ 进行更新： $\displaystyle w^1- \eta\frac{\partial L}{\partial w}|_{w=w^1,b=b^1} \Rightarrow w^2$ ， $\displaystyle b^1- \eta\frac{\partial L}{\partial b}|_{w=w^1,b=b^1} \Rightarrow b^2$ 。你就反复进行这个步骤，最后你就可以找到一个 $l o s s$ 相对比较小的 $w$ 值跟 $b$ 的值。

$\qquad$ 这边要补充说明的是，所谓 $gradient\ descent$ 的 $g r a d i e n t$ 指的是什么呢？其实 $g r a d i e n t$ 就是 $\nabla L=\left[\begin{matrix}\displaystyle \frac{\partial L}{\partial w} \\ \displaystyle \frac{\partial L}{\partial w} \end{matrix}\right]$ 这个向量。

3. 可视化

$\qquad$ 刚才做的事情可视化如下，是一个等高线图，有两个参数 $w$ 和 $b$ ，这两个参数决定了一个 $f u n c t i o n$ 长什么样。在这个图上的颜色代表了 $loss\ function$ 的数值，越偏蓝色代表数值越小。那我们就随机选取一个初始值是在左下角红色的的点，接下来计算在红色这个点的偏微分 $\displaystyle \frac{\partial L}{\partial w}$ 和 $\displaystyle \frac{\partial L}{\partial b}$ ，然后把参数更新： $\displaystyle w- \eta\frac{\partial L}{\partial w}$ ， $\displaystyle b- \eta\frac{\partial L}{\partial b}$ ，点移动的方向即 $g r a d i e n t$ 的方向其实就是等高线的法线方向。接下来再计算一次偏微分，这个偏微分告诉你说现在应该往哪个方向更新你的参数。
在这里插入图片描述
$\qquad gradient\ descent$ 有一个让人担心的地方，假设你的 $loss\ function$ 如下图所示，因为每次随机初始化值 $w^0$ 是随机的，按照 $gradient\ descent$ 建议的方向更新参数最后得到的最优 $f u n c t i o n$ 是不一定相同的。
在这里插入图片描述
$\qquad$ 但是在 $linear\ regression$ 里面不存在这种担心，因为 $l i n e a r r e g r e s s i o n$ 的 $l o s s f u n c t i o n$ 是 $c o n v e x$ （凸函数），它是没有 $local\ optimal$ （局部最优解）的。 $linear\ regression$ 对 $w$ 和 $b$ 的偏微分计算如下：
$\qquad \circ\ \displaystyle L(w,b)=\sum\limits_{n=1}^{10}{(\hat{y}^n-(b+w\cdot x_{cp}^n))^2}$
$\qquad \circ\ \displaystyle \frac{\partial L}{\partial w}=\sum\limits_{n=1}^{10}2{(\hat{y}^n-(b+w\cdot x_{cp}^n))(-x_{cp}^{n})}$
$\qquad \circ\ \displaystyle \frac{\partial L}{\partial b}=\sum\limits_{n=1}^{10}2{(\hat{y}^n-(b+w\cdot x_{cp}^n))(-1)}$

4. How’s the results?

$\qquad linear\ regression$ 的函式 $y=b+w\cdot x$ 根据 $training\ data$ 找出来最好的 $b$ 和 $w$ 分别是 $b = ? 188.4$ 和 $w = 2.7$ 。将 $b$ 和 $w$ 的值分别画在图上如下所示，你会发现图中红色的直线没有办法完全正确的评定所有的宝可梦进化后的 CP 值。如果你想知道这个最优 $f u n c t i o n$ 做的有多好或者多不好的话，你可以计算一下你的 $e r r o r$ ，也就是计算一下每一个蓝色的点跟这个红色的线之间的距离。通过计算得到这 10 只宝可梦 $training\ data$ 的平均 $e r r o r$ 为 31.9。
在这里插入图片描述
$\qquad$ 但是这不是我们最关心的，我们真正关心的是 $g e n e r a l i z a t i o n$ 的 $c a s e$ ，也就是说，假设你今天抓到一只新的宝可梦以后，如果使用你现在的 $m o d e l$ 去预测的话，那做出来你估测的误差到底有多少。
$\qquad$ 所以真正关心的是，那些你没有看过的新的 $d a t a$ ，这边我们叫做 $testing\ data$ ，他的误差是多少。所以我们这边又抓了 10 只宝可梦当作 $testing\ data$ ，这 10 只宝可梦与之前拿来当作训练的 10 只宝可梦不是同样的10 只。其实这新抓的 10 只跟刚才看到的 10 只的分布其实是蛮像的，它们就是下面图上的10个点。那你会发现说，我们刚才在训练资料上找出来这条红色的线，其实也可以大致上预测，在我们没有看到过的宝可梦上它的进化后的 CP 值。如果你要量化它的错误的话，那就计算一下它的错误，它的错误计算出来是 35.0，这个值是比我们刚才在 $training\ data$ 上看到的 $e r r o r$ 还要稍微大一点。因为可以想想看我们最好的 $f u n c t i o n$ 是在 $training\ data$ 上找到的，所以在 $training\ data$ 上面算出来的 $e r r o r$ 本来就应该比 $testing\ data$ 上算出来的 $e r r o r$ 要小一点。
在这里插入图片描述

5. How can we do better?

$\qquad$ 如果你想要做的更好的话，接下来你要做的事情就是重新设计一下你的 $m o d e l$ 。如果你观察过你的 $m o d e l$ ，你就会发现说，在原进化前的 CP 值特别大的地方，还有进化前 CP 值特别小的地方，预测是比较不准的。从结果看来，能够正确预测的 $f u n c t i o n$ 可能不是这样子一条直线，它可能是稍微更复杂一点，所以我们需要有一个更复杂的 $m o d e l$ 。
$\qquad$ 举例来说，我们这边可能需要引入二次式。我们今天可能需要引入 $x_{cp})^2$ 这一项，我们重新设计了一个 $m o d e l$ ，这个 $m o d e l$ 它写成 $y=b+w_1\cdot x_{cp}+w_2\cdot(x_{cp})^2$ 。如果我们有了这个新的 $f u n c t i o n$ ，你可以用我们刚才讲的一模一样的方式去 $d e f i n e$ 一个 $f u n c t i o n$ 的好坏，然后用 $gradient\ descent$ 找出一个在你的 $function\ set$ 里面最好的 $f u n c t i o n$ 。根据 $training\ data$ 找出来的最好的 $f u n c t i o n$ 是 $b = ? 10.3$ ， $w_1=1.0$ ， $w_2=2.7\times10^{-3}$ 。
$\qquad$ 如果我们把这个最好的 $f u n c t i o n$ 画在图上的话，它如下图所示。你就会发现说，现在我们有了这条新的曲线，有了新的 $m o d e l$ ，它的预测在 $training\ data$ 上面看起来是更准一点。在 $training\ data$ 上面你得到的 $average\ error$ 现在是 15.4。但我们真正关心的是 $testing\ data$ ，那我们就把同样的 $m o d e l$ 再 $a p p l y$ 到 $testing\ data$ 上，然后再计算一下它的 $average\ error$ ，那我们现在得到的是 18.4。在刚才如果我们没有考虑 $x_{cp})^2$ 的时候，算出来的 $average\ error$ 是 30 左右，现在有考虑平方项得到的是 18.4。
在这里插入图片描述
$\qquad$ 那有没有可能做的更好呢？比如说我们可以考虑一个更复杂的 $m o d e l$ ，我们引入不只是 $x_{cp})^2$ ，我们引入 $x_{cp})^3$ ，所以我们现在的 $m o d e l$ 长这个样子： $y=b+w_1\cdot x_{cp}+w_2\cdot(x_{cp})^2+w_3\cdot(x_{cp})^3$ 。你就用一模一样的方法，你就可以根据你的 $training\ data$ 找到在这一个 $function\ set$ 里面，在这个model里面最好的一个 $f u n c t i o n$ 。那找出来是这样： $b = 6.4$ ， $w_1=0.66$ ， $w_2=4.3\times10^{-3}$ ， $w_3=-1.8\times10^{-6}$ ，所以你发现 $w_3$ 其实是它的值比较小，它可能是没有太大的影响，做出来的线其实跟刚才看到的二次的线是没有太大的差别的，那做出来看起来就如下图所示。那这个时候 $average\ error$ 算出来是 15.3，如果你看 $testing\ data$ 的话， $testing\ data$ 算出来的 $average\ error$ 是 18.1，跟刚刚二次的，有考虑 $x_{cp})^2$ 的结果比起来是稍微好一点点。二次项是 18.3，有考虑三次项后是 18.1。
在这里插入图片描述
$\qquad$ 那有没有可能是更复杂的 $m o d e l$ 呢？或许在宝可梦的那个程式背后，它产生进化后的 CP 值用的是一个更复杂的的一个 $f u n c t i o n$ ，或许它不只考虑了 $x_{cp})^3$ ，或许它考虑的是四次方 $y=b+w_1\cdot x_{cp}+w_2\cdot(x_{cp})^2+w_3\cdot(x_{cp})^3+w_4\cdot(x_{cp})^4$ 也说不定，那你就用一模一样的方法再把这些参数： $b、w_1、w_2、w_3$ 和 $w_4$ 都找出来，那你得到的 $f u n c t i o n$ 就如下图所示，你发现它在 $training\ data$ 上它显然可以做的更好，现在的 $average\ error$ 是 14.9。
$\qquad$ 但我们真正关心的是 $testing\ data$ ，我们真正关心的是如果没有看过的宝可梦，我们能够多精确的预测它进化后的 CP 值。我们发现说，如果我们看没有看过的宝可梦的话，我们得到的 $average\ error$ 是多少呢？我们得到的 $average\ error$ 其实是 28.8。我们在三次项的时候已经可以得到 $average\ error$ 是 18.1，但是我们换了一个更复杂的 $m o d e l$ 以后，做出来是 28.8，结果竟然变得更糟了！我们换了一个更复杂的 $m o d e l$ ，在 $training\ data$ 上给我们比较好的结果，但在 $testing\ data$ 上看起来结果是更糟的。
在这里插入图片描述
$\qquad$ 那如果换再更复杂的model会怎样呢？有没有可能是五次式 $y=b+w_1\cdot x_{cp}+w_2\cdot(x_{cp})^2+w_3\cdot(x_{cp})^3+w_4\cdot(x_{cp})^4+w_5\cdot(x_{cp})^5$ ，有没有可能它背后的程式是如此的复杂。
$\qquad$ 那这个时候我们把最好的 $f u n c t i o n$ 找出来，你会发现它最好的 $f u n c t i o n$ 在 $training\ data$ 上如下图所示。这是一个合理的结果吗？你会发现说在原来的 CP 值是 500 左右的宝可梦，根据你现在的 $m o d e l$ 预测出来，它的 CP 值竟然是负的。但是在 $training\ data$ 上我们可以算出来的 $e r r o r$ 是 12.8，比我们刚才用四次式得到的结果又再更好一些。那在 $testing\ data$ 的结果上是怎样呢？如果我们把这个我们找出来的 $f u n c t i o n$ ， $a p p l y$ 到新的宝可梦上面，你会发现结果预测非常不准，所以算出来的 $average\ error$ 非常大为 232.1。所以当我们换了一个更复杂的model，考虑到五次的时候，结果又更加糟糕了。
在这里插入图片描述
$\qquad$ 所以到目前为止，我们试了五个不同的 $m o d e l$ 。那这五个 $m o d e l$ ，如果你把他们分别的在 $training\ data$ 上面的 $average\ error$ 都画出来的话，你会得到下图中右上角的子图，图像从高到低，也就是说，如果你考虑一个最简单的 $m o d e l$ ，这个时候 $e r r o r$ 是比较高的， $m o d e l$ 稍微复杂一点，error稍微下降，model越复杂，在 $training\ data$ 上的 error 就会越来越小。那为什么会这样呢？这件事情非常容易解释，假设下图中黄色的这个圈圈代表有考虑到三次的式子所形成的function space。那四次的式子所形成的function space就是绿色的圈圈，它是包含黄色的圈圈的，因为只要将 $w_4$ 设为0，这个四次的式子就可以变成三次的式子，所以三次的式子都包含在这个四次的式子里面。那如果我们今天考虑更复杂的五次的式子的话，它又可以包含所有四次的式子。
在这里插入图片描述

$\qquad$ 所以今天如果你有一个越复杂的 $m o d e l$ ，它包含了越多的 $f u n c t i o n$ 的话，那理论上你就可以找出一个 $f u n c t i o n$ ，它可以让你的 $error\ rate$ 在 $training\ data$ 上越来越低，前提是 $gradient\ descent$ 要能够真正帮你找出 $best\ function$ 。但是在 $testing\ data$ 上面看起来的结果是不一样的，在 $training\ data$ 上你会发现说 $m o d e l$ 越复杂你的 $e r r o r$ 越低，但是在 $testing\ data$ 上，在到第三个式子为止，你的 $e r r o r$ 是有下降的，但是到第四个和第五个 $f u n c t i o n$ 的时候 $e r r o r$ 就暴增。所以今天我们得到一个观察，虽然说越复杂的 $m o d e l$ 可以在 $training\ data$ 上面给我们越好的结果，但是越复杂的 $m o d e l$ 并不一定能够在 $testing\ data$ 上给我们越好的结果，这件事情就叫做 Overfitting（过拟合），比如说在第四个和第五个式子的时候就发生了 $O v e r f i t t i n g$ 的情形。那为什么会有 $O v e r f i t t i n g$ 这个情形呢？这个我们日后再解释。所以 $m o d e l$ 不是越复杂越好，我们必须选一个最合适的 $m o d e l$ 。比如说在这个 $c a s e$ 里面，当我们选一个三次式的时候，可以给我们最低的 $e r r o r$ ，所以我们就应该选择三次的式子来作为我们的 $m o d e l$ ，来作为我们的 $function\ set$ 。
在这里插入图片描述

6. 物种对 linear function 的影响

$\qquad$ 你以为这样就结束了吗？其实还没有。刚才只收集了 10 只宝可梦，其实太少了，当我们收集到 60 只宝可梦的时候，你会发现说刚才都是白忙一场。将这 60 只宝可梦原来的 CP 值和进化后的 CP 值画出来，如下图所示。
在这里插入图片描述
$\qquad$ 你会发现说他们中间有一个非常奇妙的关系，它显然不是什么一次二次三次一百次式。中间有另外一个力量，这个力量不是 CP 值，它在影响着进化后的数值，它到底式什么呢？其实非常的直觉，就是宝可梦的物种，这边我们把不同的物种用不同的颜色来表示。所以只考虑进化前的 CP 值显然是不对的，因为进化后的 CP 值受到物种的影响其实是很大的。
在这里插入图片描述
$\qquad$ 所以我们要重新设计一下你的 $function\ set$ ，这个 $i n p u t$ 宝可梦和 $o u t p u t$ 进化后的 CP 值有什么关系呢？它们的关系如下图所示，其中 $x_{s}$ 代表不同的物种。也就是不同的物种，我们就代入不同的 $linear\ function$ ，然后得到不同的 $y$ 作为最终的输出。
在这里插入图片描述

$\qquad$ 你可能问一个问题说，你把 $i f$ 放到整个 $f u n c t i o n$ 里面，这样你不就不是一个 $linear\ model$ 了吗？ $f u n c t i o n$ 里面有 $i f$ 你搞得定吗？你可以用微分来做吗？你可以用刚才的 $gradient\ descent$ 来算参数对 $loss\ function$ 微分吗？其实是可以的，这个式子你可以把它改写成一个 $linear\ function$ ：
$\qquad y=b_1\cdot \delta(x_s=Pidgey)+w_1\cdot \delta(x_s=Pidgey)x_{cp}+b_2\cdot \delta(x_s=Weedle)+w_2\cdot \delta(x_s=Weedle)x_{cp}+b_3\cdot \delta(x_s=Caterpie)+w_3\cdot \delta(x_s=Caterpie)x_{cp}+b_4\cdot \delta(x_s=Eevee)+w_4\cdot \delta(x_s=Eevee)x_{cp}$
$\qquad$ 其中 $\delta$ 这个 $f u n c t i o n$ 的意思是说，输入值符合括号中的表达式则为 1，否则为 0。举例来说，如果输入的是 $P i d g e y$ ，则只有 $\delta(x_s=Pidgey)$ 为 1，其他 $\delta(function)$ 为 0，公式就变成 $y=b_1+w_1\cdot x_{cp}$ ，对于其他种类的宝可梦来说也一样。所以当我们设计这个 $f u n c t i o n$ 的时候，我们就可以做到我们刚才有 $i f$ 的 $f u n c t i o n$ ，这个 $f u n c t i o n$ 就是一个 $linear\ function$ ，它就是一个 $linear\ model$ 。
在这里插入图片描述
$\qquad$ 那有了这些以后，我们做出来的结果是怎么样呢？下图是在 $training\ data$ 上面的结果，我们知道不同种类在 $training\ data$ 上面的宝可梦，它用的参数就不一样，所以不同种类的宝可梦的线不一样。所以就发现说，当我们分不同种类的宝可梦来考虑的时候，我们的 $m o d e l$ 在 $training\ data$ 上面可以得到更低的 $average\ error$ 为 3.8。
在这里插入图片描述
$\qquad$ 但我们更在意的是它能不能够预测新看到的宝可梦，也就是 $testing\ data$ 上面的结果。 $training\ data$ 上面的结果如下图所示，发现说它也把在 $testing\ data$ 上面的那些宝可梦 $f i t$ 得很好。然后它的 $average\ error$ 是 14.3，这比我们刚才可以做到的 18.1 还要更好。
在这里插入图片描述

7. 其他参数对 linear function 的影响

$\qquad$ 但是你再观察上面这个图的话，感觉应该是还有一些东西是没有做好的，还有一些没有 $f i t$ 很好的地方，有一些值还是略高或略低于这条直线。或许还存在一些其他的东西在影响着宝可梦进化后的 CP 值，有什么其他可能的参数呢？比如说：会不会进化后的 CP 值是跟 $w e i g h t$ 有关系的？会不会进化后的 CP 值是跟它的高度有关系的？会不会进化后的 CP 值是跟它的 HP 有关系的？其实我们不知道，如果你拥有 $domain\ knowledge$ 的话，你就可能可以知道你应该把什么样的东西加到你的 $m o d e l$ 里面去。但是我又没有 $domain\ knowledge$ ，那怎么办呢？没关系，有一招就是把你所有想到的东西，通通塞进去，我们来弄一个最复杂的 $f u n c t i o n$ ，然后看看会怎样？
在这里插入图片描述
$\qquad$ 这个 $f u n c t i o n$ 我写成如下这样，将所有可能对 $linear\ function$ 有影响的参数整合在一起。其中 $x_{hp}$ 代表宝可梦的 HP 值； $x_{h}$ 代表宝可梦的 $h e i g h t$ ；其中 $x_{hp}$ 代表宝可梦的 HP 值； $x_{w}$ 代表宝可梦的 $w e i g h t$ ：
在这里插入图片描述
$\qquad$ 那我们现在有个这么复杂的 $f u n c t i o n$ ，在 $training\ data$ 上我们得到的 $e r r o r$ ，期望应该就是非常的低。我们果然得到一个非常低的 $e r r o r$ 为 1.9，这个function你可以把它写成线性的式子：
$\qquad \displaystyle y=\delta(x_s=Pidgey)(b_1+w_{1}\cdot x_{cp}+w_{5}\cdot x^2_{cp})$
$\qquad\qquad \displaystyle +\delta(x_s=Weedle)(b_2+w_{2}\cdot x_{cp}+w_{6}\cdot x^2_{cp})$
$\qquad\qquad \displaystyle +\delta(x_s=Caterpie)(b_3+w_{3}\cdot x_{cp}+w_{7}\cdot x^2_{cp})$
$\qquad\qquad \displaystyle +\delta(x_s=Eevee)(b_4+w_{4}\cdot x_{cp}+w_{8}\cdot x^2_{cp})$
$\qquad\qquad \displaystyle +w_{9}\cdot x_{hp}+w_{10}\cdot x^2_{hp}$
$\qquad\qquad \displaystyle +w_{11}\cdot x_{h}+w_{12}\cdot x^2_{h}$
$\qquad\qquad \displaystyle +w_{13}\cdot x_{w}+w_{14}\cdot x^2_{w}$
$\qquad$ 那你可以期待你在 $testing\ data$ 上也算出很低的 $e r r o r$ 吗？倒是不见得，这么复杂的 $m o d e l$ ，很有可能会 $o v e r f i t t i n g$ ，你很有可能会在 $testing\ data$ 上面得到很糟的数字，我们今天得到的数字很糟是 102.3。我们应该怎么办呢？

8. Regularization

$\qquad$ 我们现在有一个办法来处理这个问题，这招叫做 $r e g u l a r i z a t i o n$ 。 $r e g u l a r i z a t i o n$ 要做的事情是，我们重新定义了 $step\ 2$ 的时候，我们对一个 $f u n c t i o n$ 是好还是坏的定义。
$\qquad$ 我们重新定义了我们的 $loss\ function$ ，把一些 $k n o w l e d g e$ 放进去，让我们可以找到比较好的 $f u n c t i o n$ 。什么意思呢？假设我们的 $model\ in\ general$ 写成这样： $\displaystyle y=b+\sum w_ix_i$ ，我们原来的 $\displaystyle loss\ function：L=\sum\limits_n(\hat{y}^n-(b+\sum w_ix_i))^2$ 只考虑了 $e r r o r$ 这件事。原来的 $loss\ function$ 只考虑了 $p r e d i c t i o n$ 的结果减掉正确答案的平方，只考虑了 $p r e d i c t i o n$ 的 $e r r o r$ 。那 $r e g u l a r i z a t i o n$ 它就是加上一项额外的 $t e r m$ ，这一项额外的 $t e r m$ 是 $\displaystyle\lambda\sum(w_i)^2$ ，其中 $\lambda$ 是一个常数，这个是等一下我们要手调一下看要设多少，那 $\displaystyle \sum(w_i)^2$ 就是把这个 $m o d e l$ 里面所有的 $w_i$ 都算一下平方以后加起来。将这项合起来才是我们的 $\displaystyle loss\ function：L=\sum\limits_n(\hat{y}^n-(b+\sum w_ix_i))^2+\lambda\sum(w_i)^2$ 。
$\qquad loss\ function$ 的 $e r r o r$ 越小就代表越好的 $f u n c t i o n$ ，但是为什么我们期待一个参数的值越小，参数的值越接近 0 的 $f u n c t i o n$ 呢？因为参数的值比较接近 0 的 $f u n c t i o n$ ，它是比较平滑的。所谓的比较平滑的意思是，当今天的输入有变化的时候，output对输入的变化是比较不敏感的，为什么参数小就可以达到这个效果呢？你可以想想看，假设 $\displaystyle y=b+\sum w_ix_i$ 是我们的 $m o d e l$ ，现在 $i n p u t$ 有一个变化，比如说我们对某一个 $x_i$ 加上 $\Delta x_i$ ，这时候输出的变化就是加上 $w_i\Delta x_i$ ，你会发现说如果今天你的 $w_i$ 越小越接近0的话，输出对输入就越不敏感。现在的问题就是，为什么我们喜欢比较平滑的 $f u n c t i o n$ ？如果我们今天有一个比较平滑的 $f u n c t i o n$ 的话，那今天如果我们的输入被一些杂讯干扰的话，平滑的 $f u n c t i o n$ 就会收到比较少的影，而给我们一个比较好的结果。
在这里插入图片描述
$\qquad$ 接下来我们就要看看说，如果我们加入了 $r e g u l a r i z a t i o n$ 的项，对我们最终的结果会有什么样的影响？下图是实验的结果，我们把 $\lambda$ 从 0、1、10 一直调到100000，所以 $\lambda$ 越大，代表说今天我们找到的function越平滑。如果我们看看在 $training\ data$ 上的 $e r r o r$ 的话，我们会发现说，如果 $f u n c t i o n$ 越平滑，我们在 $training\ data$ 上得到的 $e r r o r$ 其实是越大的。但是有趣的是，虽然在 $training\ data$ 上得到的 $e r r o r$ 越大，但是在 $testing\ data$ 上得到的 $e r r o r$ 可能是会比较小。
$\qquad$ 我们喜欢比较平滑的 $f u n c t i o n$ ，因为比较平滑的 $f u n c t i o n$ 它对 $n o i s e$ 比较不 $s e n s i t i v e$ ，所以当我们增加 $\lambda$ 的时候，你的 $p e r f o r m a n c e$ 是越来越好。但是我们又不喜欢太平滑的 $f u n c t i o n$ ，如果今天 $f u n c t i o n$ 太平滑的话，你反而会在 $testing\ data$ 上又得到糟糕的结果。所以现在的问题就是，我们希望我们的 $m o d e l$ 多 $s m o o t h$ 呢？这件事情就变成是你们要调 $\lambda$ 来解决这件事情。很多同学都了解 $r e g u l a r i z a t i o n$ ，你有没有发现说 $\displaystyle\lambda\sum(w_i)^2$ 没有把 $b i a s$ 加进去，在做 $r e g u l a r i z a t i o n$ 的时候其实是不需要考虑 $b i a s$ 这一项的， $r e g u l a r i z a t i o n$ 的预期是找到一个比较平滑的 $f u n c t i o n$ ， $b i a s$ 跟一个 $f u n c t i o n$ 的平滑的程度是没有关系的，调整 $b i a s$ 值的大小只是把 $f u n c t i o n$ 上下移动而已。总之，搞了半天以后，我最后可以做到我们的 $testing\ error$ 是 11.1。
在这里插入图片描述