小样本OLS

古典线性回归模型假定

古典线性回归模型有以下几个假定。
线性假定：
总体模型为
$y_i=\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_Kx_{iK}+\epsilon_i\,\,(i=1,\cdots,n)$
解释变量的第一个下标表示第 $i$ 个观测值，第二个下标表示第 $k$ 个观测变量，共有 $K$ 个解释变量。 $\beta_k$ 为待估参数（回归系数）。
线性假设指的是没个解释变量对于被解释变量的边际效应均为常数，即 $\frac{\partial E(y_i)}{\partial x_{ik}}=\beta_k$ 为常数。线性假设不考虑解释变量的次数，可以引入高次项如 $x_{ik}^3$ 或交互项如 $x_{i1}x_{i2}$ ，此时只要把这些项当做解释变量看待即可。总体模型用矩阵形式表达为 $\pmb y=\pmb X\pmb\beta+\pmb\epsilon$
严格外生性假定：
$E(\epsilon_i|\pmb X)=0$
在给定矩阵 $\pmb X$ 的情况下，扰动项 $\epsilon_i$ 的条件期望为0。 $\epsilon_i$ 均值独立于所有解释变量的观测数据。事实上，当 $E(\epsilon_i|\pmb X)=c$ 时均值独立也成立，此时可以将 $c$ 归入常数项中。
定义如果随机变量 $X, Y$ 满足 $E (X Y) = 0$ ，则称 $X, Y$ 正交(orthogonal)。则解释变量与扰动项正交。
不存在严格多重共线性假定
即数据矩阵 $\pmb X$ 满列秩， ${\rm rank}(\pmb X)=K$ 。
如果不满足此条件，则 $\pmb X$ 中存在多余的变量。
球型扰动项假定
扰动项满足同方差和无自相关。
$Var(\pmb \epsilon|\pmb X)=E(\pmb \epsilon \pmb \epsilon^T|\pmb X)=\sigma^2\pmb I_n=\begin{bmatrix}\sigma^2& &0\\ &\ddots& \\0& &\sigma^2\end{bmatrix}$
一方面，协方差矩阵主对角线元素均为 $\sigma^2$ 。另一方面，非主对角线元素均为0。

OLS的推导

被解释变量与解释变量在抽样之前可以看作随机变量，在抽样之后可以看做随机变量的实现值。
记未知参数向量 $\pmb \beta$ 的假想值为 $\pmb {\tilde \beta}$ ，记第 $i$ 个残差(residual)为 $e_i=y_i-\pmb x_i^T\pmb {\tilde \beta}$ ，因此残差向量可以表示为 $\pmb e=\pmb y-\pmb X^T\pmb {\tilde \beta}$ 。最小二乘法的思想在于寻找使残差平方和(Sum of Squared Residuals, SSR) $\sum_{i=1}^ne_i^2$ 最小的 $\pmb {\tilde \beta}$ 。此问题为
$\min_{\pmb {\tilde \beta}} SSR(\pmb {\tilde \beta})=\sum_{i=1}^ne_i^2=(\pmb y-\pmb X^T\pmb {\tilde \beta})^T(\pmb y-\pmb X^T\pmb {\tilde \beta})=\pmb y^T \pmb y-2\pmb y^T\pmb X\pmb {\tilde \beta}+\pmb {\tilde \beta}^T\pmb X^T\pmb X\pmb {\tilde \beta}$
可以看出，目标函数为 $\pmb {\tilde \beta}$ 的二次型，求导即可计算出最小值。
引入向量求导的几条规则：
$\frac{\partial(\pmb A^T\pmb X)}{\partial \pmb X}=\pmb A$
$\frac{\partial(\pmb X^T\pmb A\pmb X)}{\partial \pmb X}=2\pmb A\pmb X$
则可以得到最小化的一阶条件
$\frac{\partial(SSR)}{\partial\pmb{\tilde \beta} }=-2\pmb X^T\pmb y+2\pmb X^T\pmb X\pmb {\tilde \beta}=0$
移项后可知最小二乘估计量 $\pmb b$ 满足
$\pmb b=(\pmb X^T\pmb X)^{-1}\pmb X^T\pmb y$
最小化的二阶条件要求Hessian矩阵 $\frac{\partial^2(SSR)}{\partial \pmb {\tilde \beta}\partial \pmb {\tilde \beta}^T}$ 为正定矩阵。因为 $\pmb X$ 满列秩，所以 $\pmb X^T\pmb X$ 正定。
对于方差 $\sigma^2=Var(\epsilon_i)$ ，使用以下统计量作为估计。
$s^2=\frac{1}{n-K}\sum_{i=1}^ne_i^2$
其中 $(n ? K)$ 为自由度。注意此处分母为 $n ? K$ 的原因在于常数项包含在K中，当常数项不包含在K中时分母为 $n ? K ? 1$ 。

OLS的几何解释

$\pmb{\hat y}$ 可以看做 $\pmb y$ 向超平面 $\pmb X$ 的投影。
$\pmb {\hat y}=\pmb X\pmb b=\pmb X(\pmb X^T\pmb X)^{-1}\pmb X^T\pmb y=\pmb P\pmb y$
$\pmb P$ 被称为投影矩阵（ $\pmb P$ 左乘任何向量可以得到在 $\pmb X$ 上的投影）。
$\pmb e=(\pmb I_n-\pmb P)\pmb y=\pmb M\pmb y$
\pmb M被称为消灭矩阵（ $\pmb M$ 左乘任何向量得到该向量投影后的残差向量）。
根据消灭矩阵的性质，可以得到
$\pmb e=\pmb M\pmb \epsilon$
$SSR=\pmb \epsilon^T\pmb M \pmb\epsilon$

拟合优度

拟合优度 $R^2$ （可决系数）为
$0\le R^2=\frac{\sum(\hat {y_i}-\bar{y})^2}{\sum(y_i-\bar y)^2}=1-\frac{\sum e_i^2}{\sum(y_i-\bar y)^2}\le 1$
有常数项情况下， $R^2=[Corr(y_i,\hat{y_i})]^2$ ，拟合优度越大拟合程度越好。考虑到调整自由度以对解释变量过多进行惩罚，定义校正拟合优度为
$\bar {R^2}=1-\frac{\sum e_i^2/(n-K)}{\sum(y_i-\bar y)^2/(n-1)}$ 。
校正拟合优度可能为负数。如果回归模型中没有常数项，平方和分解不成立，此时可以计算非中心R
$R^2_{uc}=\frac{\pmb{\hat y}^T\pmb{\hat y}}{\pmb y^T\pmb y}=1-\frac{\pmb{\hat e}^T\pmb{\hat e}}{\pmb y^T\pmb y}$

OLS的小样本性质

线性性：OLS估计量 $\pmb b$ 为 $\pmb y$ 的线性组合。
无偏性： $E(\pmb b|\pmb X)=\pmb \beta$ （严格外生性）
估计量 $\pmb b$ 的方差为 $(\pmb b|\pmb X)=\sigma^2(\pmb X^T\pmb X)^-1$ （球形扰动假定）
高斯-马尔科夫定理：最小二乘法是最佳线性无偏估计（BLUE）,即在所有线性无偏估计中方差最小。（球形扰动假定）
方差无偏估计： $E(s^2|\pmb X)=\sigma^2$

t检验

假设给定 $\pmb X$ 的情况下， $\pmb \epsilon|\pmb X$ ~ $N(\pmb 0,\sigma^2\pmb I_n)$ 。
如果 $\sigma^2$ 已知，则可以构建的统计量
$\frac{b_k-\bar{\beta_k}}{\sqrt{\sigma^2(\pmb X^T\pmb X)_{kk}^{-1}}}\sim N(0,1)$
然而，通常情况下 $\sigma^2$ 是未知的，此时只能用 $s^2$ 来代替 $\sigma^2$ 。
$t_k=\frac{b_k-\bar{\beta_k}}{\sqrt{s^2(\pmb X^T\pmb X)_{kk}^{-1}}}\sim N(0,1)$
此处的证明主要考虑两个方面：卡方分布的证明与分子分母分布的独立性证明。其中独立性证明需要用到二维正态分布的情况下协方差为0可以推出独立。对于正态分布，不相关就意味着独立。
t检验的步骤略过。
I类错误为原假设为真但拒绝原假设，II类错误为备择假设为真但接受原假设。二者存在此消彼长的关系。显著性水平指的是发生I类错误的概率。
称1减去第II类错误发生的概率为统计检验的功效或势(power)。

F检验

F检验用于检验回归系数的 $m$ 个线性假设是否同时成立：
$H_0:\pmb R\pmb \beta=\pmb r$
其中 $\pmb R$ 为 $m\times K$ 矩阵且 ${\rm rank}(\pmb R)=m$ ，即 $\pmb R$ 行满秩， $\pmb r$ 为 $m$ 维列向量。
可以构造如下的统计量
$F=\frac{(\pmb R\pmb b-\pmb r)^T[\pmb R(\pmb X^T \pmb X)^-1\pmb R^T]^{-1}(\pmb R\pmb b-\pmb r)/m}{s^2}\sim F(m,n-K)$
检验原假设 $H_0:\beta_2=\cdots=\beta_k=0$ （即该方程的显著性）的 $F$ 统计量等于
$\frac{R^2/K-1}{(1-R^2)/(n-K)}$

分块回归

FWL定理：
将多元回归模型写为
$\pmb y=\pmb X\pmb\beta+\pmb \epsilon=\pmb X_1\pmb\beta_1+\pmb X_2\pmb\beta_2+\pmb \epsilon$
为了知道 $\pmb X_2$ 的边际影响，首先将 $\pmb y$ 对 $\pmb X_1$ 进行回归，所得残差为 $\pmb e_1$ ，即 $\pmb y$ 中不能由 $\pmb X_1$ 解释的部分；再将 $\pmb X_2$ 中的每个变量分别对 $\pmb X_1$ 进行回归，所得残差为残差矩阵 $\pmb e_2$ ，即 $\pmb X_2$ 中不能由 $\pmb X_1$ 解释的部分。最后将 $\pmb e_1$ 对 $\pmb e_2$ 进行回归，即 $\pmb X_2$ 中不能由 $\pmb X_1$ 解释的部分对 $\pmb y$ 中不能由 $\pmb X_1$ 解释的部分的解释力，这一步回归中， $\pmb e_2$ 的系数就是 $\pmb b_2$ ，即 $\pmb \beta_2$ 的估计量。
此结果揭示了变量 $\pmb z$ 的回归系数的含义，即表示“滤去其他变量 $\pmb X_1$ 影响的 $\pmb z$ ”对“滤去其他变量 $\pmb X_1$ 影响的 $\pmb y$ ”的作用。

预测

可以使用 $\hat y_0=\pmb x_0^T\pmb \beta+\epsilon_0$ 来对 $y_0$ 进行点预测。假设扰动服从正态分布，则得到t统计量来根据置信度计算置信区间。

习题

3.1 证明：
$PX=X(X^TX)^{-1}X^TX=X$
$Pe=X(X^TX)^{-1}X^Te=X(X^TX)^{-1}0=0$
$MX=(I_n-P)X=X-PX=X-X=0$
$P^T=(X(X^TX)^{-1}X^T)^T=X(X^TX)^{-1}X^T=P$
$M^T=(I_n-P)^T$ 由于 $I_n$ 和 $P$ 均为对称阵， $M$ 也为对称阵
$P^2=X(X^TX)^{-1}X^TX(X^TX)^{-1}X^T=X(X^TX)^{-1}X^T=P$
$M^2=(I_n-P)^2=I_n-2P+P^2=I_n-P=M$

3.6 假设 $n$ 阶对称矩阵 $\pmb A$ 半正定，则 $\pmb A$ 的任何主对角线元素均为非负。
因为 $\pmb A$ 半正定，所以其任何顺序主子式均非负。其1阶顺序主子式非负，而其他主对角线元素可以通过矩阵初等变换移至1阶顺序主子式的位置而不改变其半正定性，因此所有主对角线元素均为非负的。

数据结构与算法最新文章

【力扣106】从中序与后续遍历序列构造二叉

leetcode 322 零钱兑换

哈希的应用：海量数据处理

动态规划|最短Hamilton路径

华为机试_HJ41 称砝码【中等】【menset】【

【C与数据结构】——寒假提高每日练习Day1

基础算法——堆排序

2023王道数据结构线性表--单链表课后习题部

LeetCode 之反转链表的一部分

【题解】lintcode必刷50题＜有效的括号序列

加:2021-08-11 12:40:50 更:2021-08-11 12:41:16

360图书馆购物三丰科技阅读网日历万年历 2025年8日历

-2025/8/23 9:28:44-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码