[人工智能] 机器学习--Regression

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习--Regression -> 正文阅读

[人工智能]机器学习--Regression

在给定一个数据集 $D = \lbrace (x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n) \rbrace$ 的情况下，我们如何建立起一个数学模型，以尽可能的完成对新输入数据的正确预测，这就是我们所要解决的问题，在这篇文章中，我们只讨论线性回归(当然高维模型也可以通过映射得到线性模型)，数据集 $D$ 被称作训练集(train?set),而我们之后用于验证模型准确性的数据就是测试集(test set)。

在上面的数据集中，我们只考虑了最简单的一种模型，即输入只有一个属性 $x$ ，输出标记为 $y$ 。当然，其输入也有可能是一个向量如 $X = (x_1,x_2,\cdots,x_{m})$ ，而我们要建立的线性模型，就可以用函数表示如下：

$f(x) = w_{1}x_{1}+w_{2}x_{2}+\cdots+w_{m}x_{m}+b$

其中的 $w_1,\cdots,w_{n},b$ 就是我们要计算的模型的参数。为了方便下文表示及方便理解，定义如下：

$\hat x = (x_1,x_2,\cdots,x_m,1)$

$\hat w=(w_1,w_2,\cdots,w_m,b)$

$X = (\hat x_1,\hat x_2,\cdots,\hat x_n)^{T}$

$y = (y_1,y_2,\cdots,y_n)^{T}$

好了，清楚了我们这个模型的大体架构之后，下一步就是对模型参数进行求取了，但是这么多参数，我们如何找出最优秀的一组解呢，这就引出了损失函数(Loss Function)的概念，损失函数的作用就是对我们的模型进行一个评估，其函数值越小代表模型在训练集上越优秀。对于上述模型，我们定义损失函数 $L(\theta)$ 如下

$L(\theta) = \sum_{i=1}^n (y_{i}-w_1x_1-b)^2$

当然，上述损失函数是对于 $x$ 只有一个属性时的表述，对于我们提到的多维输入变量 $x$ ，其损失函数可以写作下面这种形式：

$L(\theta)=(y-X{\hat w}^{T})^{T}(y-X{\hat w}^{T})$

得到了损失函数，我们怎么找到令他最小的那一组参数呢，方法很简单，求导，求导的过程西瓜书上并没给，所以我在这里简单的说一下。

求导过程不要试图先将函数转化为一堆参数值的形式，应充分利用求导的加法原理，先拆解成几个矩阵再进行求导，这样一来计算过程就会简便很多。

$L(\theta)=(y-X{\hat w}^{T})^{T}(y-X{\hat w}^{T})$

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? $\\=(y^T-\hat wX^{T})(y-X\hat w^{T}) \\ =y^Ty-\hat wX^Ty-y^TX\hat w^{T}+\hat wX^{T}X\hat w^T \\$

拆分成如下四个矩阵后，我们发现 $\hat wX^Ty$ 和 $y^TX\hat w^T$ 是一个1*1的矩阵且其值相等，因此可将其转化成一个矩阵，接下来的工作就是令其分别对 $\hat w$ 求导，这一部分所涉及到的数学公式再次就不再证明了。

$L'(\theta) = 2X^T(X\hat w-y)$

令其等于0即可求得解，当然，要注意 $X^TX$ 是否是一个可逆矩阵，若可逆，则最终求得结果为

$\hat w = (X^TX)^{-1}X^Ty$

那么除了求导，还有什么简单的方法么，毕竟对于每一个损失函数都去矩阵求导，其工作量也是不小的，有没有什么方法能让计算机帮我们进行这些计算呢，因此，下面我们将要介绍梯度下降算法来解决这个问题。

梯度下降算法，是用来寻找局部最小值的算法，你可以想象为自己的下山过程，每走一步前都会寻找最陡峭的方向，以期更快的达到想要的解。该算法并不保证求出来的一定是全局最小值。这个时候，我们不再把损失函数看成一堆矩阵的乘法，而是将其看作有着很多参数的函数方程，分别对于这些参数进行求导，以得到下一步该往那个方向走，进而更新模型参数。除此之外，还有一个参数叫做学习率(learning rate)，你可以将其理解为通常说的步长，若是步长过大，很容易越过最优解，从而达不到我们要的效果，若是步长过小，那么算法就需要执行很多时间，效率就比较低，因此如何找到一个合适的步长也是十分重要的，在后文我们也会聊一下如何选择合适的步长。

接下来我们就以模型 $y=wx+b$ 为例来说一下梯度下降算法。

首先可以看到，该模型模型共有两个参数 $w,b$ ，所以一开始我们要给其设定一个初值 $w_0,b_0$ ，此外，为方便描述，我们不妨将学习率设为定值 $s$ ，同之前的思想一样，我们要找的参数要使得损失函数足够小，在本例中，损失函数为：

$L(w,b) = \sum_{i=1}^n (y_i-wx_i-b)^{2}$

我们对其参数 $w,b$ 分别求取偏导数，得到结果如下

$\frac{\partial L}{\partial w} = -2\sum_{i=1}^n(y_i-wx_i-b)x_i$

$\frac{\partial L}{\partial b} = -2\sum_{i=1}^n(y_i-wx_i-b)$

偏导数为正呢，就说明参数与函数值正相关，因此参数应该减小，反之则该增大，因此参数的更新过程如下：

$w_{n+1} = w_n-s\frac{\partial L}{\partial w}$

$b_{n+1}=b_n-s\frac{\partial L}{\partial b}$

算法什么时候可以停止呢，一般来说有两种情况，第一种是设置一个迭代次数，在多少次后自动停止，第二种则是比较两次迭代过程的差异，若是差异值小于某个阈值，就认为已经找到了比较好的解，算法结束。

最基本的梯度下降算法大致就是这样，接下来我们再以更加细节的方法讲一下。

首先，在模型未知的情况下，如何选择构成模型的数据也是一个比较困难的问题，比如说对于一个输入样例具有n种属性的情况，哪些属性可能影响最终的结果呢，更为甚者，这两者之间是否是线性关系也是不确定的。对于模型较为简单的情况，我们可能发现模型的误差会比较大，而对于模型较为复杂的情况，我们又可能出现过拟合(overfitting)的问题，即模型在训练集表现很好但是在测试集则不尽如人意。

对于这个问题，我认为或许可以通过协方差来说明各属性之间的联系，协方差是对于两个变量之间关联程度的一种刻画，两个变量之间的协方差定义如下

$\sigma\left(x,y\right)=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)$

这样我们就可以选出和我们将要预测的值关系较大的属性了，其次就是过拟合的问题，过拟合一般可以通过增加数据量或者添加正则项的方法来解决。

对于增加数据量的方法，其实一般只适用于一些特殊问题，比如图像识别，你可以将图片翻转之后作为一个新的输入，以此来增加样本量，而添加正则项则是比较通用的一种方法，其思想是改变损失函数，使模型尽可能的简单，以符合奥卡姆剃刀定理。举个简单的例子，修改后的损失函数可以是如下形式：

$\hat L(\theta) = L(\theta)+\lambda\sum_{i=1}^mw_i^2$

说完了大致模型，就是对于数据的预处理了，之所以会有对于数据的预处理过程，就是为了防止某个属性因其值过大而抵消了很重要但值比较小的属性的作用，处理方法一般是将原有数据改成相应的0-1正态分布。这种方法叫做feature scaling，其处理方式如下，其中 $u$ 代表属性数据的均值， $\sigma$ 代表属性数据的标准差：