Ch1 多元线性回归

函数模型

函数形式
$f(x)=\theta_{0}+\theta_{1} x_{1}+\cdots+\theta_{p} x_{p}$
向量形式：

通常一个向量指的都是列向量，向量的转置是行向量
$f(x)=\sum_{i=0}^{p} \theta_{i} x_{i}=\boldsymbol{\theta}^{T} x=x^{T} \boldsymbol{\theta} = \left[\begin{array}{c}\theta_{0} \\ \theta_{1} \\ \vdots \\ \theta_{p}\end{array}\right]\left[\left(x_{0}=1\right), x_{1}, x_{2}, \ldots, x_{p}\right]$
损失函数：最小均方误差MSE：
$J(\theta)=\frac{1}{2} \sum_{i=1}^{n}\left(x_{i}^{T} \theta-y_{i}\right)^{2}$
线性回归模型：求解损失函数的最小值
$\theta^* = arg minJ(\theta)$

加入数据后的模型

n组数据

预测值：
$\hat Y = X\theta=\left[\begin{array}{l} X_1^T\theta \\X_2^T\theta \\ \ldots \\X_n^T\theta \\ \end{array}\right]=\left[\begin{array}{l} X_{11}\space X_{12}\ldots X_{1p}\\X_{21}\space X_{22}\ldots X_{2p} \\ \ldots \\X_{n1}\space X_{n2}\ldots X_{np} \\\end{array}\right]\left[\begin{array}{c}\theta_{0} \\ \theta_{1} \\ \vdots \\ \theta_{p}\end{array}\right]$
实际值label (n组数据n个label)：
$=\left[\begin{array}{c}y_1 \\ y_2\\ \vdots \\ y_n\end{array}\right]$

模型求解

梯度下降法

Gradient Decent
$\theta:=\theta-\alpha \nabla_{\theta} J(\theta)$

$J(\theta)=\frac{1}{2} \sum_{i=1}^{n}\left(x_{i}^{T} \theta-y_{i}\right)^{2}$

其中算子：梯度是偏导数的自然扩展
$\nabla_{\theta} J=\left[\begin{array}{l}\frac{\partial J}{\partial \theta_{0}} \\ \cdots \\ \cdots \\ \frac{\partial J}{\partial \theta_{p}}\end{array}\right]$
求损失函数的偏导：
$\begin{array}{l}\frac{\partial 1}{\theta_{j} 2}\left(x_{i}^{T} \theta-y_{i}\right)^{2} \\ =\frac{\partial 1}{\theta_{j} 2}\left(\sum_{j=0}^{p} x_{i, j} \theta_{j}-y_{i}\right)^{2} \quad x_{i}=\left(x_{i, 0}, \ldots, x_{i, p}\right)^{T} \\ =\left(\sum_{j=0}^{p} x_{i, j} \theta_{j}-y_{i}\right) \frac{\partial}{\theta_{j}}\left(\sum_{j=0}^{p} x_{i, j} \theta_{j}-y_{i}\right) \\ =\left(f\left(x_{i}\right)-y_{i}\right) x_{i, j}\end{array}$

正规方程法

$\begin{aligned} J(\theta) &=\frac{1}{2}\|Y-X \theta\|^{2} \\ &=\frac{1}{2}(X \theta-Y)^{T}(X \theta-Y) \\ &=\frac{1}{2}\left(\theta^{T} X^{T} X \theta-2 Y^{T} X \theta+Y^{T} Y\right) \end{aligned}$

注解：
$\begin{array}{l}\frac{\partial \mathbf{x}^{T} \mathbf{B} \mathbf{x}}{\partial \mathbf{x}}=\left(\mathbf{B}+\mathbf{B}^{T}\right) \mathbf{x} \\ \frac{\partial \mathbf{x}^{T} \mathbf{a}}{\partial \mathbf{x}}=\frac{\partial \mathbf{a}^{T} \mathbf{x}}{\partial \mathrm{x}}=\text { a }\\\end{array}$
我们令 $B=X^TX,B^T=B\Longrightarrow (B+B^B)\theta = 2B\theta$
$\nabla_{\theta} J(\theta)=\frac{\partial J(\theta)}{\partial \theta}=\frac{\frac{1}{2}\left(\theta^{T} X^{T} X \theta-2 Y^{T} X \theta+Y^{T} Y\right)}{\partial \theta}=X^{T} X \theta-\left(Y^{T} X\right)^{T}=X^{T} X \theta-X^{T} Y=0\\\Longrightarrow X^{T} X \theta=X^{T} Y\theta^{*}=\left(X^{T} X\right)^{-1} X^{T}\\\Longrightarrow\theta^{*}=\left(X^{T} X\right)^{-1} X^{T} Y$

随机梯度下降法

Mini-batch GD

每次只用训练集中的一个数据，把数据分为若干个批，按批来更新参数。一个批中的一组数据共同决定了本次梯度的方向，下降起来就不容易跑偏，减少了随机性。

一个bacth 形成一个epoch分批次训练

全局最优解

当 $J(\theta)$ 是凸函数（凹函数和凸函数统称凸函数）时，二阶导数大于0, $X^TX$ 为半正定矩阵
$\nabla_{\theta}^{2} J(\theta)=X^{T} X$
当训练样本的数目n大于训练样本的维度（p+1 个属性，特征） $X^TX$ 通常可逆，表明改矩阵事正定矩阵，求的参数是全局最优解。不可逆时，可以接出多个参数解。可使用正则化给出一个“归纳偏好”解。

评估方法

留出法

随机挑选一部分标记数据作为测试集 (空心点 )，其余的作为训练集 (实心点 )，计算回归模型，使用测试集对模型评估: MSE =2.4，测试集不能太大，也不能太小。2 <= n:m <=4

交叉验证法

十折交叉验证，如将数据集分为10份，每次选一份作为测试集，其余作为训练集。

性能度量

线性回归模型：平方和误差

在测试集上报告 MSE(mean square error) 误差
$J_{\text {train }}(\theta)=\frac{1}{2} \sum_{i=1}^{n}\left(\mathbf{x}_{i}^{T} \theta-y_{i}\right)^{2}$

$\theta^{*}=\operatorname{argmin} J_{\text {train }}(\theta)=\left(X_{\text {train }}^{T} X_{\text {train }}\right)^{-1} X_{\text {train }}^{T} \vec{y}_{\text {train }}$

$J_{\text {test }}=\frac{1}{m} \sum_{i=n+1}^{n+m}\left(\mathbf{x}_{i}^{T} \theta^{*}-y_{i}\right)^{2}=\frac{1}{m} \sum_{i=n+1}^{n+m} \varepsilon_{i}^{2}$