[人工智能] 【学习笔记】集成学习（二）：回归问题

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【学习笔记】集成学习（二）：回归问题 -> 正文阅读

[人工智能]【学习笔记】集成学习（二）：回归问题

作者:recommend-item-box type_blog clearfix

Datawhale组队学习第27期：集成学习
本次学习的指导老师萌弟的教学视频
本贴为学习记录帖，有任何问题欢迎随时交流~
部分内容可能还不完整，后期随着知识积累逐步完善。
开始时间：2021年7月13日
最新更新：2021年7月15日（Task2回归问题）

一、基本建模步骤

明确项目任务
收集数据集并选取合适的特征
选择度量模型性能的指标
选择具体的模型并进行训练以优化模型
评估模型并调参

二、以Boston房价为例

Boston房价预测，显然是一个回归问题。
数据集已有，这里默认选定所有的特征。
度量模型性能的指标（n为样本量），具体可以看sklearn的官方文档
- MSE均方误差
  $MSE(y,\hat y) = \frac{1}{n}\sum\limits_{i=1}^{n}(y_i - \hat y_i)^2$
- MAE平均绝对误差
  $\hat y) = \frac{1}{n}|y_i - \hat y_i|$
- R-Square
  $R^2(y, \hat y) = 1 - \frac{\sum\limits_{i=1}^{n}(y_i - \hat y_i)^2} {\sum\limits_{i=1}^{n}(y_i - \bar y_i)^2}$
- 解释方程得分
  $\ V ariance(y, \hat y) = 1 - \frac{Var(y-\hat y)}{Var(y)}$
选择具体的模型
- 线性回归（linear_model）
- 多项式回归（PolynomialFeatures）
- 广义可加模型GAM（LinearGAM）
- 回归树（DecisionTreeRegressor）
- 支持向量回归SVR（SVR）
评估模型并调参（这部分是后续进行）

三、线性回归模型推导

在前几个月，本人写过一篇关于线性回归的简单应用，文章主要介绍了线性回归在Python中的实现，主要应用的是sklearn包的内容。本次学习中，Datawhale安排的作业中要求使用numpy库实现，因此本文主要给出线性回归模型的相关推导和基于numpy实现。

1. 数据基础

数据集： $D=\{ (x_1, y_1),...,(x_N,y_N) \}$
单样本向量： $x_i \in R^n$ 表示 $x_i$ 有 $n$ 个特征，即 $x_i = [x^{(j)}_i]_{n \times 1}$
所有样本组成的数值矩阵： $[x_i^{(j)}]_{n\times N}$
参数： $[w_j]_{n \times 1}$
预测值： $\hat Y = [\hat y_i]_{N \times 1}$
实际值： $[y_i]_{N \times 1}$

2. 基本模型

$\begin{aligned} \hat y_i &= w^Tx_i \\ \hat Y &= [\hat y_i]_{N \times 1} = [w^Tx_i]_{N \times 1} = X^T \cdot w \\ \end{aligned}$

3. 损失函数

这里的损失函数其实就是均方误差 $M S E$ ，回归问题中比较常用。
首先先计算预测值与真实值之差的 $L_2$ 范数，可以理解为两个向量的模长：
$\begin{aligned} ||\hat Y - Y||_2 &= (X^T \cdot w - Y)^T(X^T \cdot w - Y) \\ &= w^TXX^Tw - w^TXY-Y^TX^Tw+Y^TY \end{aligned}$
实际上，对于我们获取的数据集一般是行代表样本数，列代表特征数，可以将上面的数值矩阵改为 $[x_i^{(j)}]_{N \times n}$ 。由于中间项都是常数，转置等于它本身，有 $w^T X^TY =Y^TXw$ ，因此上述等式改为：
$\begin{aligned} ||\hat Y - Y||_2 &= (X \cdot w - Y)^T(X \cdot w - Y) \\ &= w^TX^TXw - 2w^TX^TY + Y^TY \end{aligned}$

4. 优化问题

目标函数：（这里加入 $\frac{1}{2}$ 是方便后面消去）
$\frac{1}{2N} ||\hat Y - Y||_2 = w^TX^TXw - 2w^TX^TY + Y^TY$
优化任务：
$\mathop{\text{argmin}}_{w} L(w)$

5. 优化算法（梯度下降法）

初始化参数 $w^{(0)} = [w_0^{(0)}, w_1^{(0)},..., w_n^{(n)}]$ ，这里是把截距项也放进去了。
设定学习率 $\alpha$ ，最大迭代次数 $l o o p s$ ，可接受误差 $\epsilon$
修改数值矩阵 $[x_i^{(j)}]_{N \times (n+1)}$ ：多出来的一列放于首列，全设置为1
计算当前梯度：
- $w^TX^TXw$ 可以视为 $w^TAw$ ，并由于 $A$ 是实对称矩阵，即： $X^TX = (X^TX)^T$ ，可以得到：
$\frac{\partial (w^TX^TXw)}{\partial w} = (X^TX + X^TX)w = 2X^TXw \\$
- $w^TX^TY$ 看成是关于 $w^T$ 的函数，即 $f(w^T) = w^TX^TY$ ，则有：
  $\frac{\partial (2w^TX^TY)}{\partial w} = 2X^TY$
- 参数梯度为（矩阵运算时一般是采用这个）：
$\frac{\partial L(w)}{\partial w} = X^TXw - X^TY = X^T(\hat Y - Y)$
- 数值矩阵 $[x_i^{(j)}]_{N \times (n+1)}$ ，对 $X^TYw$ 和 $X^TX$ 进行分解，每个参数 $w_j$ 的当前梯度为：
  $\frac{\partial L(w)}{\partial w_j} = \sum\limits_{k=0}^{n}\sum\limits_{i=1}^{N}x^j_ix_i^kw_k - \sum\limits_{i=1}^{N}x_i^{j}\cdot y_i$
若 $\frac{\partial L(w)}{\partial w} \ge \epsilon$ ，则更新参数，再按上述计算方式更新梯度：
$w^{(k+1)} := w^{(k)} - \alpha \cdot \frac{\partial L(w)}{\partial w}$
当 $\frac{\partial L(w)}{\partial w} < \epsilon$ 或超过最大迭代次数时，返回最新更新的参数 $w^{(k)}$ 。

6. 代码实现

# 导入包
import numpy as np
import os
from sklearn.datasets import load_boston
import time

os.chdir('D:/NewProject/datawhale/ensemble/task2')


# 定义梯度
def grad(x_, y_, w_):
    g = np.dot(x_.T, (np.dot(x_, w_) - y_)) / len(x_)
    return g


# 定义梯度下降
def sgd(x_, y_t, w_, lr, error, loops):
    num = 0
    g = grad(x_, y_t, w_)
    while num < loops:
        theta_ = w_ - lr * g
        g = grad(x_, y_t, theta_)
        if np.all(np.abs(g) < error):
            print('已找到最优参数！\n总共迭代的次数为{}'.format(num))
            print('最优参数为：{}'.format(np.round(w_, 3)))
            break
        w_ = theta_
        num += 1
    if num == loops:
        print('以达到最大迭代次数！\n最终参数为：{}'.format(np.round(w_, 3)))
    return w_


if __name__ == '__main__':
    # 载入数据集
    data = load_boston()

    # 设定随机种子（后面用于生成随机参数）
    np.random.seed(2021)
    np.set_printoptions(suppress=True)

    # 选取变量
    x = data['data']
    y = data['target']

    # 对数据预处理（标准化）
    x = (x - np.mean(x, axis=0)) / np.std(x, axis=0)

    # 加入偏置项
    x0 = np.ones(len(x)).reshape(-1, 1)
    x = np.concatenate((x0, x), axis=1)     # 合并列

    # 初始化参数
    theta = np.random.randn(len(x[0]))

    # 设定参数
    alpha = 0.01
    err = 0.00001
    max_loops = 100000

    # 求解参数
    start = time.time()
    best_theta = sgd(x, y, theta, alpha, err, max_loops)
    end = time.time()
    print('总共运行时长为：{}s'.format(np.round(end - start, 4)))