开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> 线性回归-从理论到实践 -> 正文阅读

[数据结构与算法]线性回归-从理论到实践

一元一次线性回归

抽象问题

现有一组数据，共有两列，分别为x和y，如下所示

在这里插入图片描述

现将数据用python作散点图，观察其变化趋势

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt

# 读取数据并转为np.array的格式
train = pd.read_csv('click.csv').values 
# 读取所有行的第0列作为训练数据的x
train_x = train[:, 0] 
# 读取所有行的第1列作为训练数据的y
train_y = train[:, 1]
# 画散点图
plt.plot(train_x, train_y, 'o')
plt.show()

在这里插入图片描述

我们的问题是要找到x和y的对应关系，根据此对应关系，我们就可以在给定任意x的情况下，计算得到y的值。

定义模型

观察上面的散点图可以看出来，随着x的增大，y值也在近似的不断增大。据此，我们推测，这组数据可能符合一次函数的关系，即： $y\;=\;kx\;+\;b$ ?

此式可改写为： $f_\theta(x)\;=\;\theta_0\;+\;\theta_1\cdot x$ ?

其中 $f_\theta(x)$ 表示含有参数 $θ$ ，与变量 $x$ 相关的函数。该函数即为：一元一次线性回归模型。

注：统计学中，常用 $θ$ 来表示未知数和推测值，采用 $θ$ ???? 加数字下标的形式，是为了防止当未知数的数量增加时，表达式中大量出现a、b、c、d…这样的符号。这样不但不易理解，还容易出现符号本身不够用的情况。

只要求得了上述公式中的未知参数 $\theta_0$ 和 $\theta_1$ ，即知道了x和y的关系。

现在问题转化为求未知参数 $\theta_0$ 和 $\theta_1$

求解方法

已知1个自变量 $x^{(i)}$ ????，根据模型公式 $f_\theta(x)\;=\;\theta_0\;+\;\theta_1\cdot x$ ???，可以求得与其对应的因变量 $f_\theta(x^{(i)})$ ????。

那么 $y^{(i)} - f_\theta(x^{(i)})$ ?表示实际值与模型预测值之间的误差。

我们要求解的模型函数最理想的情况就是使得 $f_\theta(x^{(i)}) = y^{(i)}$ ，即误差值 $y^{(i)} - f_\theta(x^{(i)})= 0$ ?。

实际中，很难做到让所有点的误差都等于0，因此，我们要做的就是让所有点的误差之和尽可能的小。

我们一般使用误差的平方来表征误差，一方面是去除误差正负抵消的影响，一方面是为了使之后求解微分更加方便。

所有点的误差的平方和可以用如下公式来表示：

$E(\theta)\;=\;\frac12\sum_{i=1}^n{(y^{(i)}-f_\theta(x^{(i)}))}^2$

这个表达式称为目标函数， $E$ ????是Error的首字母。

现在，我们的问题转化为：求出使得目标函数 $E(\theta)$ 取最小值的参数 $\theta_0$ 和 $\theta_1$

梯度下降法(最速下降法)

现有函数 $g (x)$ 根据导数的意义：

当 $\frac d{dx}g(x)>0$ ????，?即导数为正， $g (x)$ 随x的增大而增大，因此，要使得 $g (x)$ 减小，需要x负移
当 $\frac d{dx}g(x)<0$ ??，即导数为负， $g (x)$ 随x的增大而减小，因此，要使得 $g (x)$ 减小，需要x正移

据此可知，要使得 $g (x)$ 不断减小，只需要将x向与导数符号相反的方向移动即可。用数学表达式表述为：

$x\;:=\;x-\eta\frac d{dx}g(x)$

$A : = B$ ，表示通过B来定义A
$η$ ??，表示学习率。
1. $η$ 越小，更新次数越多，速度越慢
2. $η$ 越大，更新次数越少，速度越快，但有可能导致不收敛。

梯度下降法的核心：根据导数的符号来决定x移动的方向。

根据梯度下降法的原理，我们知道了怎样更新参数 $\theta_0$ 和 $\theta_1$ ，就能使目标函数 $E (θ)$ ?的值达到最小。

参数更新方法如下

$\left\{\begin{array}{l}\theta_0\;:=\;\theta_0\;-\;\eta\frac\partial{\partial\theta_0}E(\theta)\\\theta_1\;:=\;\theta_1\;-\;\eta\frac\partial{\partial\theta_1}E(\theta)\end{array}\right.$

现在只要计算出 $\frac\partial{\partial\theta_0}E(\theta)$ ?和 $\frac\partial{\partial\theta_1}E(\theta)$ ?，代入上式，就可不断更新参数，求得最佳的 $\theta_0$ ?和 $\theta_1$ ?。

计算上式中的两个偏导数过程如下：

$\frac\partial{\partial\theta_0}E(\theta)\;=\;\frac12\overset n{\underset{i=1}{\sum\;}}2\cdot(y^{(i)}-f_\theta(x^{(i)}))\cdot\frac{\partial(y^{(i)}-f_\theta(x^{(i)}))}{\partial\theta_0}$
$=\overset n{\underset{i=1}{\sum\;}}(y^{(i)}-f_\theta(x^{(i)}))\cdot(-1)\cdot\frac{\partial(f_\theta(x^{(i)}))}{\partial\theta_0}$ ??
$=\overset n{\underset{i=1}{\sum\;}}(y^{(i)}-f_\theta(x^{(i)}))\cdot(-1)\cdot\frac{\partial(\theta_0\;+\;\theta_1\cdot x^{(i)})}{\partial\theta_0}$ ?
$=\overset n{\underset{i=1}{\sum\;}}(y^{(i)}-f_\theta(x^{(i)}))\cdot(-1)\cdot1$
$=\overset n{\underset{i=1}{\sum\;}}(f_\theta(x^{(i)})-y^{(i)})$

同理：

$\frac\partial{\partial\theta_1}E(\theta)\;=\;\frac12\overset n{\underset{i=1}{\sum\;}}2\cdot(y^{(i)}-f_\theta(x^{(i)}))\cdot\frac{\partial(y^{(i)}-f_\theta(x^{(i)}))}{\partial\theta_1}$ ?
$=\overset n{\underset{i=1}{\sum\;}}(y^{(i)}-f_\theta(x^{(i)}))\cdot(-1)\cdot\frac{\partial(f_\theta(x^{(i)}))}{\partial\theta_1}$ ???
$=\overset n{\underset{i=1}{\sum\;}}(y^{(i)}-f_\theta(x^{(i)}))\cdot(-1)\cdot\frac{\partial(\theta_0\;+\;\theta_1\cdot x^{(i)})}{\partial\theta_1}$ ??
$=\overset n{\underset{i=1}{\sum\;}}(y^{(i)}-f_\theta(x^{(i)}))\cdot(-1)\cdot x^{(i)}$
$=\overset n{\underset{i=1}{\sum\;}}(f_\theta(x^{(i)})-y^{(i)})\cdot x^{(i)}$

因此，参数更新表达式如下：

根据该式，不断迭代，直到求得最佳的参数 $\theta_0$ 和 $\theta_1$ ，即确定了模型表达式 $f_\theta(x)\;=\;\theta_0\;+\;\theta_1\cdot x$

python实现

根据上述的理论及推导，我们知道：

模型表达式为： $f_\theta(x)\;=\;\theta_0\;+\;\theta_1\cdot x$
目标函数为： $E(\theta)\;=\;\frac12\sum_{i=1}^n{(y^{(i)}-f_\theta(x^{(i)}))}^2$
参数更新表达式为： $\left\{\begin{array}{l}\theta_0\;:=\;\theta_0\;-\;\eta\cdot\sum_{i=1}^n(f_\theta(x^{(i)})-y^{(i)})\\\theta_1\;:=\;\theta_1\;-\;\eta\cdot\sum_{i=1}^n(f_\theta(x^{(i)})-y^{(i)})\cdot x^{(i)}\end{array}\right.$

在进行参数更新之前，应该将数据标准化（也称z-score规范化）。这个步骤非必须，但是做了之后，参数的收敛会更快

$z^{(i)}=\frac{x^{(i)}-\mu}\sigma$

# 读取数据并转为np.array的格式
train = pd.read_csv('click.csv').values 
train_x = train[:, 0] 
train_y = train[:, 1]

# 对变量train_x进行标准化
mu = train_x.mean()
sigma = train_x.std()
def standardize(x):
    return (x-mu) / sigma
train_x_std = standardize(train_x)

python逐步实现

# 1,随机生成初始参数theta0 和 theta1
theta0, theta1 = np.random.rand(2)

# 2,定义模型函数f(x)
def f(x):
    y = theta0 + theta1 * x
    return y

# 3,定义目标函数E(x, y)
def E(x, y):
    e = 0.5 * np.sum((y-f(x)) ** 2)
    return e 

# 4,初始化学习率η
ETA = 0.001

# 5,初始化误差变化量diff
diff = 1

# 6,初始化更新次数count
count = 0 

# 7,迭代学习
error = E(train_x_std, train_y)    # 计算初始误差
# 开始迭代更新参数，直到误差的变化小于0.01
while diff > 0.01:
    # 更新参数theta0和theta1
    theta0 = theta0 - ETA * np.sum((f(train_x_std) - train_y))
    theta1 = theta1 - ETA * np.sum((f(train_x_std) - train_y) * train_x_std)
    # 计算更新参数后的当前误差
    error_current = E(train_x_std, train_y)
    # 计算原误差与当前误差的差值
    diff = error - error_current
    # 更新误差值
    error = error_current
    # 输出日志
    count += 1
    print(f'第{count}次：theta0 = {theta0:.3f}, theta1 = {theta1:.3f}, 差值 = {diff:.4f}')

部分输出日志如下

在这里插入图片描述

注：若执行多次，会发现迭代次数和误差的差值在每次执行时都不一样，这是因为随机初始化的参数 $\theta_0$ 和 $\theta_1$ ?的不同而导致的。

此时，最终参数为：

print(f'theta0 = {theta0:.3f}')
print(f'theta1 = {theta1:.3f}')

在这里插入图片描述
作图查看拟合结果如下

plt.plot(train_x_std, train_y, 'o')     # 标准化后散点图
x = np.linspace(-3, 3, 100)
plt.plot(x, f(x))                       # 拟合直线
plt.show()

在这里插入图片描述

sklearn方法

在实际使用中，机器学习库sklearn为我们提供了更模块化的方式来进行线性回归，如下所示

from sklearn.linear_model import LinearRegression
# 1, 定义线性回归模型
lr = LinearRegression()
# 2, 训练模型
lr.fit(train_x_std.reshape(-1,1), train_y)

# 查看tehta0 和 theta1
print(f'theta0 = {lr.intercept_}')
print(f'theta1 = {lr.coef_}')

结果如下所示

在这里插入图片描述

和使用python逐步计算得到的参数一致。

np.polyfit(X, y, n)方法

Numpy库也提供了线性拟合方法：Numpy.polyfit(X, y, n)，使用方法如下所示：

# 一次线性拟合
z1 = np.polyfit(train_x_std, train_y, 1)
# 线性表示
p1 = np.poly1d(z1)
print(z1)
print(p1)

结果如下所示

在这里插入图片描述

和使用前两种方法得到的结果一致。

一元多次线性回归-多项式回归

观察前面做出的图像，发现一元一次线性模型 $f_\theta(x)\;=\;\theta_0\;+\;\theta_1\cdot x$ ?的拟合效果并不好。

实际上，对于给定的数据，曲线比直线拟合地更好。因此，我们重新定义模型函数为： $f_\theta(x)\;=\;\theta_0+\;\theta_1\cdot x+\theta_2\cdot x^2$ ?
该式为一元多次线性回归，即多项式拟合模型表达式。

如果使用更大次数的表达式，如下所示，就能表示更复杂的曲线了

$f_\theta(x)\;=\;\theta_0+\;\theta_1\cdot x+\theta_2\cdot x^2+\theta_3\cdot x^3+\dots+\theta_n\cdot x^n$

次数越高，拟合的越好，但可能会出现过拟合问题

对于要解决的问题，在找出合适的表达式之前，需要不断地去尝试。

这里以二次拟合函数为例，我们增加了参数 $θ_2$ ，此时：

模型表达式为： $f_\theta(x)\;=\;\theta_0+\;\theta_1\cdot x+\theta_2\cdot x^2$ ??
目标函数为： $E(\theta)\;=\;\frac12\sum_{i=1}^n{(y^{(i)}-f_\theta(x^{(i)}))}^2$ ?

使用同样的方式，对 $E (θ)$ 进行微分，得到参数更新表达式如下：

$\left\{\begin{array}{l}\theta_0\;:=\;\theta_0\;-\;\eta\cdot\sum_{i=1}^n(f_\theta(x^{(i)})-y^{(i)})\\\theta_1\;:=\;\theta_1\;-\;\eta\cdot\sum_{i=1}^n(f_\theta(x^{(i)})-y^{(i)})\cdot x^{(i)}\\\theta_2\;:=\;\theta_2\;-\;\eta\cdot\sum_{i=1}^n(f_\theta(x^{(i)})-y^{(i)})\cdot x^{(i)^2}\end{array}\right.$

即使增加参数（增加次数），比如有 $θ_3$ ??， $θ_4$ ?等，依然可以用同样的方法来求出参数更新表达式。

像这样增加函数中多项式的次数，然后再使用函数的分析方法被称为多项式回归

多元线性回归

前述的线性回归都是一元回归，即只有一个变量。

但是，实际中要解决的很多问题是变量超过2个的复杂问题。

例如：有三个变量，分别为 $x_1$ ?， $x_2$ ?， $x_3$ ???。此时：

模型表达式为： $f_\theta(x_1,x_2,x_3)=\;\theta_0+\;\theta_1\cdot x_1+\theta_2\cdot x_2+\theta_3\cdot x_3$

将此式推广到n个变量的情况，此时

模型表达式为： $f_\theta(x_1,\dots,x_n)=\;\theta_0+\;\theta_1\cdot x_1+\theta_2\cdot x_2+\dots+\theta_n\cdot x_n$

我们可以把参数 $θ$ 和变量 $x$ 看作向量，用黑体表示

$\theta=\begin{bmatrix}\theta_0\\\theta_1\\\theta_2\\\vdots\\\theta_n\end{bmatrix},\;x=\begin{bmatrix}\begin{array}{c}x_0\\x_1\\x_2\end{array}\\\vdots\\x_n\end{bmatrix}$

其中 $x_0 = 1$

则： $\theta^Tx\;=\;\theta_0\cdot x_0+\;\theta_1\cdot x_1+\theta_2\cdot x_2+\dots+\theta_n\cdot x_n$ ?

因此： $f_\theta(x)=\theta^Tx$

对目标函数 $E(\theta)\;=\;\frac12\sum_{i=1}^n{(y^{(i)}-f_\theta(x^{(i)}))}^2$ 求 $θ_j$ 的偏导如下：

$\frac\partial{\partial\theta_j}E(\theta)\;=\;\frac12\overset n{\underset{i=1}{\sum\;}}2\cdot(y^{(i)}-f_\theta(x^{(i)}))\cdot\frac{\partial(y^{(i)}-f_\theta(x^{(i)}))}{\partial\theta_j}$ ??

$=\overset n{\underset{i=1}{\sum\;}}(y^{(i)}-f_\theta(x^{(i)}))\cdot(-1)\cdot\frac{\partial(f_\theta(x^{(i)}))}{\partial\theta_j}$ ????
$=\overset n{\underset{i=1}{\sum\;}}(y^{(i)}-f_\theta(x^{(i)}))\cdot(-1)\cdot\frac{\partial(\theta_0\cdot x_0^{(i)}+\theta_1\cdot x_1^{(i)}+\theta_2\cdot x_2^{(i)}+\dots+\theta_n\cdot x_n^{(i)})}{\partial\theta_j}$ ?
$=\overset n{\underset{i=1}{\sum\;}}(y^{(i)}-f_\theta(x^{(i)}))\cdot(-1)\cdot x_j^{(i)}$
$=\overset n{\underset{i=1}{\sum\;}}(f_\theta(x^{(i)})-y^{(i)})\cdot x_j^{(i)}$
综上：

模型表达式为：

$f_\theta(x)=\boldsymbol\theta^{\mathbf T}\boldsymbol x\;=\;\theta_0\cdot x_0+\;\theta_1\cdot x_1+\theta_2\cdot x_2+\dots+\theta_n\cdot x_n$
目标函数为： $E(\theta)\;=\;\frac12\sum_{i=1}^n{(y^{(i)}-f_\theta(x^{(i)}))}^2$
参数更新表达式为： $\theta_j:=\theta_j-\eta\cdot\sum_{i=1}^n(f_\theta(x^{(i)})-y^{(i)})\cdot x_j^{(i)}$

像这样包含了多个变量的回归称为多重回归。

采用矩阵求解参数

由于训练集数据有很多，所以我们把1行数据当作一个训练数据，以矩阵的形式来处理更方便。

n个变量( $x_0$ ?????， $x_1$ ?????， $x_2$ ?????，…， $x_n$ ?????)，n个参数( $θ_0$ ?????， $θ_1$ ?????， $θ_2$ ?????，…， $θ_n$ ???????)，n个训练数据的模型表达式如下：

$f_\theta(x)=X\cdot\theta=\begin{bmatrix}{\mathbf x}_{\mathbf0}&{\mathbf x}_{\mathbf1}\;\;{\mathbf x}_{\mathbf2}\;\cdots\;\;{\mathbf x}_{\mathbf n}\end{bmatrix}\boldsymbol\cdot\begin{bmatrix}\theta_0\\\theta_1\\\vdots\\\theta_n\end{bmatrix}=\begin{bmatrix}x_0^{(1)}&x_1^{(1)}&\cdots&x_n^{(1)}\\x_0^{(2)}&x_1^{(2)}&\cdots&x_n^{(2)}\\x_0^{(3)}&x_1^{(3)}&\cdots&x_n^{(3)}\\&&\vdots&\\x_0^{(n)}&x_1^{(n)}&\cdots&x_n^{(n)}\end{bmatrix}\cdot\begin{bmatrix}\theta_0\\\theta_1\\\vdots\\\theta_n\end{bmatrix}$

? $=\begin{bmatrix}\theta_0\cdot x_0^{(1)}+\theta_1\cdot x_1^{(1)}+\cdots+\theta_n\cdot x_n^{(1)}\\\theta_0\cdot x_0^{(2)}+\theta_1\cdot x_1^{(2)}+\cdots+\theta_n\cdot x_n^{(2)}\\\theta_0\cdot x_0^{(3)}+\theta_1\cdot x_1^{(3)}+\cdots+\theta_n\cdot x_n^{(3)}\\\vdots\\\theta_0\cdot x_0^{(n)}+\theta_1\cdot x_1^{(n)}+\cdots+\theta_n\cdot x_n^{(n)}\end{bmatrix}$

对于参数更新表达式： $\theta_j:=\theta_j-\eta\cdot\sum_{i=1}^n(f_\theta(x^{(i)})-y^{(i)})\cdot x_j^{(i)}$ ，当 $j = 0$ 时，求和项可展开为：

$\sum_{i=1}^n(f_\theta(x^{(i)})-y^{(i)})\cdot x_0^{(i)}=(f_\theta(x^{(1)})-y^{(1)})\cdot x_0^{(1)}+(f_\theta(x^{(2)})-y^{(2)})\cdot x_0^{(2)}+\cdots+(f_\theta(x^{(n)})-y^{(n)})\cdot x_0^{(n)}$

令：

$\boldsymbol f=\begin{bmatrix}f_\theta(x^{(1)})-y^{(1)}\\f_\theta(x^{(2)})-y^{(2)}\\\vdots\\f_\theta(x^{(n)})-y^{(n)}\end{bmatrix},\;{\boldsymbol x}_{\mathbf0}=\begin{bmatrix}x_0^{(1)}\\x_0^{(2)}\\\vdots\\x_0^{(n)}\end{bmatrix}$

则：

$\sum_{i=1}^n(f_\theta(x^{(i)})-y^{(i)})\cdot x_0^{(i)}=\boldsymbol f^T\cdot{\boldsymbol x}_{\mathbf0}$

Python逐步实现

对于多项式回归：

$x_0=\begin{bmatrix}1\\1\\\vdots\\1\end{bmatrix},\;x_1=\begin{bmatrix}x^{(i)}\\x^{(i)}\\\vdots\\x^{(i)}\end{bmatrix},\;x_2=\begin{bmatrix}x^{(i)^2}\\x^{(i)^2}\\\vdots\\x^{(i)^2}\end{bmatrix},\;X=\lbrack{\boldsymbol x}_{\mathbf0}\;{x}_{\mathbf1}\;{\boldsymbol x}_{\mathbf2}\rbrack=\begin{bmatrix}1&x^{(i)}&x^{(i)^2}\\1&x^{(i)}&x^{(i)^2}\\&\vdots&\\1&x^{(i)}&x^{(i)^2}\end{bmatrix}$

# 1，创建训练数据的矩阵X
def to_matrix(x):
    return np.vstack([np.ones(x.shape[0]), x, x**2]).T
X = to_matrix(train_x_std)

# 2，随机初始化参数Theta
theta = np.random.rand(3)

# 3，定义预测函数
def f(x):
    return np.dot(x, theta)

# 4, 初始化参数
diff = 1
ETA = 0.001

# 5, 迭代更新参数
error = E(X, train_y)
while diff > 0.01:
    theta = theta - ETA * np.dot(f(X)-train_y, X)
    current_error = E(X, train_y)
    diff = error - current_error
    error = current_error

运行结束后，得到参数如下

在这里插入图片描述

将结果绘图展示如下：

x = np.linspace(-3, 3, 100)

plt.plot(train_x_std, train_y, 'o') 	# 原数据散点图
plt.plot(x, f(to_matrix(x)))             # 多项式拟合曲线

plt.show()

在这里插入图片描述

np.polyfit(X, y, n)方法

z2 = np.polyfit(train_x_std, train_y, 2)
p2 = np.poly1d(z2)
print(z2)
print(p2)

结果如下所示
在这里插入图片描述
与python逐步实现结果一致

数据结构与算法最新文章

【力扣106】从中序与后续遍历序列构造二叉

leetcode 322 零钱兑换

哈希的应用：海量数据处理

动态规划|最短Hamilton路径

华为机试_HJ41 称砝码【中等】【menset】【

【C与数据结构】——寒假提高每日练习Day1

基础算法——堆排序

2023王道数据结构线性表--单链表课后习题部

LeetCode 之反转链表的一部分

【题解】lintcode必刷50题＜有效的括号序列

加:2021-07-29 11:53:53 更:2021-07-29 11:56:05

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/8 8:28:46-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码