IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 计量经济学学习与Stata应用笔记(二)小样本最小二乘法 -> 正文阅读

[数据结构与算法]计量经济学学习与Stata应用笔记(二)小样本最小二乘法

最小二乘法(OLS)是最基本的线性回归模型估计方法。

小样本OLS

古典线性回归模型假定

古典线性回归模型有以下几个假定。
线性假定:
总体模型为
y i = β 1 x i 1 + β 2 x i 2 + ? + β K x i K + ? i ?? ( i = 1 , ? ? , n ) y_i=\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_Kx_{iK}+\epsilon_i\,\,(i=1,\cdots,n) yi?=β1?xi1?+β2?xi2?+?+βK?xiK?+?i?(i=1,?,n)
解释变量的第一个下标表示第 i i i个观测值,第二个下标表示第 k k k个观测变量,共有 K K K个解释变量。 β k \beta_k βk?为待估参数(回归系数)。
线性假设指的是没个解释变量对于被解释变量的边际效应均为常数,即 ? E ( y i ) ? x i k = β k \frac{\partial E(y_i)}{\partial x_{ik}}=\beta_k ?xik??E(yi?)?=βk?为常数。线性假设不考虑解释变量的次数,可以引入高次项如 x i k 3 x_{ik}^3 xik3?或交互项如 x i 1 x i 2 x_{i1}x_{i2} xi1?xi2?,此时只要把这些项当做解释变量看待即可。总体模型用矩阵形式表达为 y = X β + ? \pmb y=\pmb X\pmb\beta+\pmb\epsilon y?y??y=XXXβ?β??β+???
严格外生性假定
E ( ? i ∣ X ) = 0 E(\epsilon_i|\pmb X)=0 E(?i?XXX)=0
在给定矩阵 X \pmb X XXX的情况下,扰动项 ? i \epsilon_i ?i?的条件期望为0。 ? i \epsilon_i ?i?均值独立于所有解释变量的观测数据。事实上,当 E ( ? i ∣ X ) = c E(\epsilon_i|\pmb X)=c E(?i?XXX)=c时均值独立也成立,此时可以将 c c c归入常数项中。
定义如果随机变量 X , Y X,Y X,Y满足 E ( X Y ) = 0 E(XY)=0 E(XY)=0,则称 X , Y X,Y X,Y正交(orthogonal)。则解释变量与扰动项正交。
不存在严格多重共线性假定
即数据矩阵 X \pmb X XXX满列秩, r a n k ( X ) = K {\rm rank}(\pmb X)=K rank(XXX)=K
如果不满足此条件,则 X \pmb X XXX中存在多余的变量。
球型扰动项假定
扰动项满足同方差和无自相关。
V a r ( ? ∣ X ) = E ( ? ? T ∣ X ) = σ 2 I n = [ σ 2 0 ? 0 σ 2 ] Var(\pmb \epsilon|\pmb X)=E(\pmb \epsilon \pmb \epsilon^T|\pmb X)=\sigma^2\pmb I_n=\begin{bmatrix}\sigma^2& &0\\ &\ddots& \\0& &\sigma^2\end{bmatrix} Var(???XXX)=E(??????TXXX)=σ2IIIn?=???σ20???0σ2????
一方面,协方差矩阵主对角线元素均为 σ 2 \sigma^2 σ2。另一方面,非主对角线元素均为0。

OLS的推导

被解释变量与解释变量在抽样之前可以看作随机变量,在抽样之后可以看做随机变量的实现值。
记未知参数向量 β \pmb \beta β?β??β的假想值为 β ~ \pmb {\tilde \beta} β~??β~???β~?,记第 i i i个残差(residual)为 e i = y i ? x i T β ~ e_i=y_i-\pmb x_i^T\pmb {\tilde \beta} ei?=yi??xxxiT?β~??β~???β~?,因此残差向量可以表示为 e = y ? X T β ~ \pmb e=\pmb y-\pmb X^T\pmb {\tilde \beta} eee=y?y??y?XXXTβ~??β~???β~?。最小二乘法的思想在于寻找使残差平方和(Sum of Squared Residuals, SSR) ∑ i = 1 n e i 2 \sum_{i=1}^ne_i^2 i=1n?ei2?最小的 β ~ \pmb {\tilde \beta} β~??β~???β~?。此问题为
min ? β ~ S S R ( β ~ ) = ∑ i = 1 n e i 2 = ( y ? X T β ~ ) T ( y ? X T β ~ ) = y T y ? 2 y T X β ~ + β ~ T X T X β ~ \min_{\pmb {\tilde \beta}} SSR(\pmb {\tilde \beta})=\sum_{i=1}^ne_i^2=(\pmb y-\pmb X^T\pmb {\tilde \beta})^T(\pmb y-\pmb X^T\pmb {\tilde \beta})=\pmb y^T \pmb y-2\pmb y^T\pmb X\pmb {\tilde \beta}+\pmb {\tilde \beta}^T\pmb X^T\pmb X\pmb {\tilde \beta} β~??β~???β~?min?SSR(β~??β~???β~?)=i=1n?ei2?=(y?y??y?XXXTβ~??β~???β~?)T(y?y??y?XXXTβ~??β~???β~?)=y?y??yTy?y??y?2y?y??yTXXXβ~??β~???β~?+β~??β~???β~?TXXXTXXXβ~??β~???β~?
可以看出,目标函数为 β ~ \pmb {\tilde \beta} β~??β~???β~?的二次型,求导即可计算出最小值。
引入向量求导的几条规则:
? ( A T X ) ? X = A \frac{\partial(\pmb A^T\pmb X)}{\partial \pmb X}=\pmb A ?XXX?(AAATXXX)?=AAA
? ( X T A X ) ? X = 2 A X \frac{\partial(\pmb X^T\pmb A\pmb X)}{\partial \pmb X}=2\pmb A\pmb X ?XXX?(XXXTAAAXXX)?=2AAAXXX
则可以得到最小化的一阶条件
? ( S S R ) ? β ~ = ? 2 X T y + 2 X T X β ~ = 0 \frac{\partial(SSR)}{\partial\pmb{\tilde \beta} }=-2\pmb X^T\pmb y+2\pmb X^T\pmb X\pmb {\tilde \beta}=0 ?β~??β~???β~??(SSR)?=?2XXXTy?y??y+2XXXTXXXβ~??β~???β~?=0
移项后可知最小二乘估计量 b \pmb b bbb满足
b = ( X T X ) ? 1 X T y \pmb b=(\pmb X^T\pmb X)^{-1}\pmb X^T\pmb y bbb=(XXXTXXX)?1XXXTy?y??y
最小化的二阶条件要求Hessian矩阵 ? 2 ( S S R ) ? β ~ ? β ~ T \frac{\partial^2(SSR)}{\partial \pmb {\tilde \beta}\partial \pmb {\tilde \beta}^T} ?β~??β~???β~??β~??β~???β~?T?2(SSR)?为正定矩阵。因为 X \pmb X XXX满列秩,所以 X T X \pmb X^T\pmb X XXXTXXX正定。
对于方差 σ 2 = V a r ( ? i ) \sigma^2=Var(\epsilon_i) σ2=Var(?i?),使用以下统计量作为估计。
s 2 = 1 n ? K ∑ i = 1 n e i 2 s^2=\frac{1}{n-K}\sum_{i=1}^ne_i^2 s2=n?K1?i=1n?ei2?
其中 ( n ? K ) (n-K) (n?K)为自由度。注意此处分母为 n ? K n-K n?K的原因在于常数项包含在K中,当常数项不包含在K中时分母为 n ? K ? 1 n-K-1 n?K?1

OLS的几何解释

y ^ \pmb{\hat y} y^??y^???y^?可以看做 y \pmb y y?y??y向超平面 X \pmb X XXX的投影。
y ^ = X b = X ( X T X ) ? 1 X T y = P y \pmb {\hat y}=\pmb X\pmb b=\pmb X(\pmb X^T\pmb X)^{-1}\pmb X^T\pmb y=\pmb P\pmb y y^??y^???y^?=XXXbbb=XXX(XXXTXXX)?1XXXTy?y??y=PPPy?y??y
P \pmb P PPP被称为投影矩阵( P \pmb P PPP左乘任何向量可以得到在 X \pmb X XXX上的投影)。
e = ( I n ? P ) y = M y \pmb e=(\pmb I_n-\pmb P)\pmb y=\pmb M\pmb y eee=(IIIn??PPP)y?y??y=MMMy?y??y
\pmb M被称为消灭矩阵( M \pmb M MMM左乘任何向量得到该向量投影后的残差向量)。
根据消灭矩阵的性质,可以得到
e = M ? \pmb e=\pmb M\pmb \epsilon eee=MMM???
S S R = ? T M ? SSR=\pmb \epsilon^T\pmb M \pmb\epsilon SSR=???TMMM???

拟合优度

拟合优度 R 2 R^2 R2(可决系数)为
0 ≤ R 2 = ∑ ( y i ^ ? y ˉ ) 2 ∑ ( y i ? y ˉ ) 2 = 1 ? ∑ e i 2 ∑ ( y i ? y ˉ ) 2 ≤ 1 0\le R^2=\frac{\sum(\hat {y_i}-\bar{y})^2}{\sum(y_i-\bar y)^2}=1-\frac{\sum e_i^2}{\sum(y_i-\bar y)^2}\le 1 0R2=(yi??yˉ?)2(yi?^??yˉ?)2?=1?(yi??yˉ?)2ei2??1
有常数项情况下, R 2 = [ C o r r ( y i , y i ^ ) ] 2 R^2=[Corr(y_i,\hat{y_i})]^2 R2=[Corr(yi?,yi?^?)]2,拟合优度越大拟合程度越好。考虑到调整自由度以对解释变量过多进行惩罚,定义校正拟合优度为
R 2 ˉ = 1 ? ∑ e i 2 / ( n ? K ) ∑ ( y i ? y ˉ ) 2 / ( n ? 1 ) \bar {R^2}=1-\frac{\sum e_i^2/(n-K)}{\sum(y_i-\bar y)^2/(n-1)} R2ˉ=1?(yi??yˉ?)2/(n?1)ei2?/(n?K)?
校正拟合优度可能为负数。如果回归模型中没有常数项,平方和分解不成立,此时可以计算非中心R
R u c 2 = y ^ T y ^ y T y = 1 ? e ^ T e ^ y T y R^2_{uc}=\frac{\pmb{\hat y}^T\pmb{\hat y}}{\pmb y^T\pmb y}=1-\frac{\pmb{\hat e}^T\pmb{\hat e}}{\pmb y^T\pmb y} Ruc2?=y?y??yTy?y??yy^??y^???y^?Ty^??y^???y^??=1?y?y??yTy?y??ye^e^e^Te^e^e^?

OLS的小样本性质

  1. 线性性:OLS估计量 b \pmb b bbb y \pmb y y?y??y的线性组合。
  2. 无偏性: E ( b ∣ X ) = β E(\pmb b|\pmb X)=\pmb \beta E(bbbXXX)=β?β??β(严格外生性)
  3. 估计量 b \pmb b bbb的方差为 V a r ( b ∣ X ) = σ 2 ( X T X ) ? 1 Var (\pmb b|\pmb X)=\sigma^2(\pmb X^T\pmb X)^-1 Var(bbbXXX)=σ2(XXXTXXX)?1(球形扰动假定)
  4. 高斯-马尔科夫定理:最小二乘法是最佳线性无偏估计(BLUE),即在所有线性无偏估计中方差最小。(球形扰动假定)
  5. 方差无偏估计: E ( s 2 ∣ X ) = σ 2 E(s^2|\pmb X)=\sigma^2 E(s2XXX)=σ2

t检验

假设给定 X \pmb X XXX的情况下, ? ∣ X \pmb \epsilon|\pmb X ???XXX~ N ( 0 , σ 2 I n ) N(\pmb 0,\sigma^2\pmb I_n) N(000,σ2IIIn?)
如果 σ 2 \sigma^2 σ2已知,则可以构建的统计量
b k ? β k ˉ σ 2 ( X T X ) k k ? 1 ~ N ( 0 , 1 ) \frac{b_k-\bar{\beta_k}}{\sqrt{\sigma^2(\pmb X^T\pmb X)_{kk}^{-1}}}\sim N(0,1) σ2(XXXTXXX)kk?1? ?bk??βk?ˉ??N(0,1)
然而,通常情况下 σ 2 \sigma^2 σ2是未知的,此时只能用 s 2 s^2 s2来代替 σ 2 \sigma^2 σ2
t k = b k ? β k ˉ s 2 ( X T X ) k k ? 1 ~ N ( 0 , 1 ) t_k=\frac{b_k-\bar{\beta_k}}{\sqrt{s^2(\pmb X^T\pmb X)_{kk}^{-1}}}\sim N(0,1) tk?=s2(XXXTXXX)kk?1? ?bk??βk?ˉ??N(0,1)
此处的证明主要考虑两个方面:卡方分布的证明与分子分母分布的独立性证明。其中独立性证明需要用到二维正态分布的情况下协方差为0可以推出独立。对于正态分布,不相关就意味着独立。
t检验的步骤略过。
I类错误为原假设为真但拒绝原假设,II类错误为备择假设为真但接受原假设。二者存在此消彼长的关系。显著性水平指的是发生I类错误的概率。
称1减去第II类错误发生的概率为统计检验的功效或势(power)。

F检验

F检验用于检验回归系数的 m m m个线性假设是否同时成立:
H 0 : R β = r H_0:\pmb R\pmb \beta=\pmb r H0?:RRRβ?β??β=rrr
其中 R \pmb R RRR m × K m\times K m×K矩阵且 r a n k ( R ) = m {\rm rank}(\pmb R)=m rank(RRR)=m,即 R \pmb R RRR行满秩, r \pmb r rrr m m m维列向量。
可以构造如下的统计量
F = ( R b ? r ) T [ R ( X T X ) ? 1 R T ] ? 1 ( R b ? r ) / m s 2 ~ F ( m , n ? K ) F=\frac{(\pmb R\pmb b-\pmb r)^T[\pmb R(\pmb X^T \pmb X)^-1\pmb R^T]^{-1}(\pmb R\pmb b-\pmb r)/m}{s^2}\sim F(m,n-K) F=s2(RRRbbb?rrr)T[RRR(XXXTXXX)?1RRRT]?1(RRRbbb?rrr)/m?F(m,n?K)
检验原假设 H 0 : β 2 = ? = β k = 0 H_0:\beta_2=\cdots=\beta_k=0 H0?:β2?=?=βk?=0(即该方程的显著性)的 F F F统计量等于
R 2 / K ? 1 ( 1 ? R 2 ) / ( n ? K ) \frac{R^2/K-1}{(1-R^2)/(n-K)} (1?R2)/(n?K)R2/K?1?

分块回归

FWL定理:
将多元回归模型写为
y = X β + ? = X 1 β 1 + X 2 β 2 + ? \pmb y=\pmb X\pmb\beta+\pmb \epsilon=\pmb X_1\pmb\beta_1+\pmb X_2\pmb\beta_2+\pmb \epsilon y?y??y=XXXβ?β??β+???=XXX1?β?β??β1?+XXX2?β?β??β2?+???
为了知道 X 2 \pmb X_2 XXX2?的边际影响,首先将 y \pmb y y?y??y X 1 \pmb X_1 XXX1?进行回归,所得残差为 e 1 \pmb e_1 eee1?,即 y \pmb y y?y??y中不能由 X 1 \pmb X_1 XXX1?解释的部分;再将 X 2 \pmb X_2 XXX2?中的每个变量分别对 X 1 \pmb X_1 XXX1?进行回归,所得残差为残差矩阵 e 2 \pmb e_2 eee2?,即 X 2 \pmb X_2 XXX2?中不能由 X 1 \pmb X_1 XXX1?解释的部分。最后将 e 1 \pmb e_1 eee1? e 2 \pmb e_2 eee2?进行回归,即 X 2 \pmb X_2 XXX2?中不能由 X 1 \pmb X_1 XXX1?解释的部分对 y \pmb y y?y??y中不能由 X 1 \pmb X_1 XXX1?解释的部分的解释力,这一步回归中, e 2 \pmb e_2 eee2?的系数就是 b 2 \pmb b_2 bbb2?,即 β 2 \pmb \beta_2 β?β??β2?的估计量。
此结果揭示了变量 z \pmb z zzz的回归系数的含义,即表示“滤去其他变量 X 1 \pmb X_1 XXX1?影响的 z \pmb z zzz”对“滤去其他变量 X 1 \pmb X_1 XXX1?影响的 y \pmb y y?y??y”的作用。

预测

可以使用 y ^ 0 = x 0 T β + ? 0 \hat y_0=\pmb x_0^T\pmb \beta+\epsilon_0 y^?0?=xxx0T?β?β??β+?0?来对 y 0 y_0 y0?进行点预测。假设扰动服从正态分布,则得到t统计量来根据置信度计算置信区间。


习题

3.1 证明:
P X = X ( X T X ) ? 1 X T X = X PX=X(X^TX)^{-1}X^TX=X PX=X(XTX)?1XTX=X
P e = X ( X T X ) ? 1 X T e = X ( X T X ) ? 1 0 = 0 Pe=X(X^TX)^{-1}X^Te=X(X^TX)^{-1}0=0 Pe=X(XTX)?1XTe=X(XTX)?10=0
M X = ( I n ? P ) X = X ? P X = X ? X = 0 MX=(I_n-P)X=X-PX=X-X=0 MX=(In??P)X=X?PX=X?X=0
P T = ( X ( X T X ) ? 1 X T ) T = X ( X T X ) ? 1 X T = P P^T=(X(X^TX)^{-1}X^T)^T=X(X^TX)^{-1}X^T=P PT=(X(XTX)?1XT)T=X(XTX)?1XT=P
M T = ( I n ? P ) T M^T=(I_n-P)^T MT=(In??P)T由于 I n I_n In? P P P均为对称阵, M M M也为对称阵
P 2 = X ( X T X ) ? 1 X T X ( X T X ) ? 1 X T = X ( X T X ) ? 1 X T = P P^2=X(X^TX)^{-1}X^TX(X^TX)^{-1}X^T=X(X^TX)^{-1}X^T=P P2=X(XTX)?1XTX(XTX)?1XT=X(XTX)?1XT=P
M 2 = ( I n ? P ) 2 = I n ? 2 P + P 2 = I n ? P = M M^2=(I_n-P)^2=I_n-2P+P^2=I_n-P=M M2=(In??P)2=In??2P+P2=In??P=M

3.6 假设 n n n阶对称矩阵 A \pmb A AAA半正定,则 A \pmb A AAA的任何主对角线元素均为非负。
因为 A \pmb A AAA半正定,所以其任何顺序主子式均非负。其1阶顺序主子式非负,而其他主对角线元素可以通过矩阵初等变换移至1阶顺序主子式的位置而不改变其半正定性,因此所有主对角线元素均为非负的。

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-08-11 12:40:50  更:2021-08-11 12:41:16 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 17:11:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计