最小二乘法(OLS)是最基本的线性回归模型估计方法。
小样本OLS
古典线性回归模型假定
古典线性回归模型有以下几个假定。 线性假定: 总体模型为
y
i
=
β
1
x
i
1
+
β
2
x
i
2
+
?
+
β
K
x
i
K
+
?
i
??
(
i
=
1
,
?
?
,
n
)
y_i=\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_Kx_{iK}+\epsilon_i\,\,(i=1,\cdots,n)
yi?=β1?xi1?+β2?xi2?+?+βK?xiK?+?i?(i=1,?,n) 解释变量的第一个下标表示第
i
i
i个观测值,第二个下标表示第
k
k
k个观测变量,共有
K
K
K个解释变量。
β
k
\beta_k
βk?为待估参数(回归系数)。 线性假设指的是没个解释变量对于被解释变量的边际效应均为常数,即
?
E
(
y
i
)
?
x
i
k
=
β
k
\frac{\partial E(y_i)}{\partial x_{ik}}=\beta_k
?xik??E(yi?)?=βk?为常数。线性假设不考虑解释变量的次数,可以引入高次项如
x
i
k
3
x_{ik}^3
xik3?或交互项如
x
i
1
x
i
2
x_{i1}x_{i2}
xi1?xi2?,此时只要把这些项当做解释变量看待即可。总体模型用矩阵形式表达为
y
=
X
β
+
?
\pmb y=\pmb X\pmb\beta+\pmb\epsilon
y?y??y=XXXβ?β??β+??? 严格外生性假定:
E
(
?
i
∣
X
)
=
0
E(\epsilon_i|\pmb X)=0
E(?i?∣XXX)=0 在给定矩阵
X
\pmb X
XXX的情况下,扰动项
?
i
\epsilon_i
?i?的条件期望为0。
?
i
\epsilon_i
?i?均值独立于所有解释变量的观测数据。事实上,当
E
(
?
i
∣
X
)
=
c
E(\epsilon_i|\pmb X)=c
E(?i?∣XXX)=c时均值独立也成立,此时可以将
c
c
c归入常数项中。 定义如果随机变量
X
,
Y
X,Y
X,Y满足
E
(
X
Y
)
=
0
E(XY)=0
E(XY)=0,则称
X
,
Y
X,Y
X,Y正交(orthogonal)。则解释变量与扰动项正交。 不存在严格多重共线性假定 即数据矩阵
X
\pmb X
XXX满列秩,
r
a
n
k
(
X
)
=
K
{\rm rank}(\pmb X)=K
rank(XXX)=K。 如果不满足此条件,则
X
\pmb X
XXX中存在多余的变量。 球型扰动项假定 扰动项满足同方差和无自相关。
V
a
r
(
?
∣
X
)
=
E
(
?
?
T
∣
X
)
=
σ
2
I
n
=
[
σ
2
0
?
0
σ
2
]
Var(\pmb \epsilon|\pmb X)=E(\pmb \epsilon \pmb \epsilon^T|\pmb X)=\sigma^2\pmb I_n=\begin{bmatrix}\sigma^2& &0\\ &\ddots& \\0& &\sigma^2\end{bmatrix}
Var(???∣XXX)=E(??????T∣XXX)=σ2IIIn?=???σ20???0σ2???? 一方面,协方差矩阵主对角线元素均为
σ
2
\sigma^2
σ2。另一方面,非主对角线元素均为0。
OLS的推导
被解释变量与解释变量在抽样之前可以看作随机变量,在抽样之后可以看做随机变量的实现值。 记未知参数向量
β
\pmb \beta
β?β??β的假想值为
β
~
\pmb {\tilde \beta}
β~??β~???β~?,记第
i
i
i个残差(residual)为
e
i
=
y
i
?
x
i
T
β
~
e_i=y_i-\pmb x_i^T\pmb {\tilde \beta}
ei?=yi??xxxiT?β~??β~???β~?,因此残差向量可以表示为
e
=
y
?
X
T
β
~
\pmb e=\pmb y-\pmb X^T\pmb {\tilde \beta}
eee=y?y??y?XXXTβ~??β~???β~?。最小二乘法的思想在于寻找使残差平方和(Sum of Squared Residuals, SSR)
∑
i
=
1
n
e
i
2
\sum_{i=1}^ne_i^2
∑i=1n?ei2?最小的
β
~
\pmb {\tilde \beta}
β~??β~???β~?。此问题为
min
?
β
~
S
S
R
(
β
~
)
=
∑
i
=
1
n
e
i
2
=
(
y
?
X
T
β
~
)
T
(
y
?
X
T
β
~
)
=
y
T
y
?
2
y
T
X
β
~
+
β
~
T
X
T
X
β
~
\min_{\pmb {\tilde \beta}} SSR(\pmb {\tilde \beta})=\sum_{i=1}^ne_i^2=(\pmb y-\pmb X^T\pmb {\tilde \beta})^T(\pmb y-\pmb X^T\pmb {\tilde \beta})=\pmb y^T \pmb y-2\pmb y^T\pmb X\pmb {\tilde \beta}+\pmb {\tilde \beta}^T\pmb X^T\pmb X\pmb {\tilde \beta}
β~??β~???β~?min?SSR(β~??β~???β~?)=i=1∑n?ei2?=(y?y??y?XXXTβ~??β~???β~?)T(y?y??y?XXXTβ~??β~???β~?)=y?y??yTy?y??y?2y?y??yTXXXβ~??β~???β~?+β~??β~???β~?TXXXTXXXβ~??β~???β~? 可以看出,目标函数为
β
~
\pmb {\tilde \beta}
β~??β~???β~?的二次型,求导即可计算出最小值。 引入向量求导的几条规则:
?
(
A
T
X
)
?
X
=
A
\frac{\partial(\pmb A^T\pmb X)}{\partial \pmb X}=\pmb A
?XXX?(AAATXXX)?=AAA
?
(
X
T
A
X
)
?
X
=
2
A
X
\frac{\partial(\pmb X^T\pmb A\pmb X)}{\partial \pmb X}=2\pmb A\pmb X
?XXX?(XXXTAAAXXX)?=2AAAXXX 则可以得到最小化的一阶条件
?
(
S
S
R
)
?
β
~
=
?
2
X
T
y
+
2
X
T
X
β
~
=
0
\frac{\partial(SSR)}{\partial\pmb{\tilde \beta} }=-2\pmb X^T\pmb y+2\pmb X^T\pmb X\pmb {\tilde \beta}=0
?β~??β~???β~??(SSR)?=?2XXXTy?y??y+2XXXTXXXβ~??β~???β~?=0 移项后可知最小二乘估计量
b
\pmb b
bbb满足
b
=
(
X
T
X
)
?
1
X
T
y
\pmb b=(\pmb X^T\pmb X)^{-1}\pmb X^T\pmb y
bbb=(XXXTXXX)?1XXXTy?y??y 最小化的二阶条件要求Hessian矩阵
?
2
(
S
S
R
)
?
β
~
?
β
~
T
\frac{\partial^2(SSR)}{\partial \pmb {\tilde \beta}\partial \pmb {\tilde \beta}^T}
?β~??β~???β~??β~??β~???β~?T?2(SSR)?为正定矩阵。因为
X
\pmb X
XXX满列秩,所以
X
T
X
\pmb X^T\pmb X
XXXTXXX正定。 对于方差
σ
2
=
V
a
r
(
?
i
)
\sigma^2=Var(\epsilon_i)
σ2=Var(?i?),使用以下统计量作为估计。
s
2
=
1
n
?
K
∑
i
=
1
n
e
i
2
s^2=\frac{1}{n-K}\sum_{i=1}^ne_i^2
s2=n?K1?i=1∑n?ei2? 其中
(
n
?
K
)
(n-K)
(n?K)为自由度。注意此处分母为
n
?
K
n-K
n?K的原因在于常数项包含在K中,当常数项不包含在K中时分母为
n
?
K
?
1
n-K-1
n?K?1。
OLS的几何解释
y
^
\pmb{\hat y}
y^??y^???y^?可以看做
y
\pmb y
y?y??y向超平面
X
\pmb X
XXX的投影。
y
^
=
X
b
=
X
(
X
T
X
)
?
1
X
T
y
=
P
y
\pmb {\hat y}=\pmb X\pmb b=\pmb X(\pmb X^T\pmb X)^{-1}\pmb X^T\pmb y=\pmb P\pmb y
y^??y^???y^?=XXXbbb=XXX(XXXTXXX)?1XXXTy?y??y=PPPy?y??y
P
\pmb P
PPP被称为投影矩阵(
P
\pmb P
PPP左乘任何向量可以得到在
X
\pmb X
XXX上的投影)。
e
=
(
I
n
?
P
)
y
=
M
y
\pmb e=(\pmb I_n-\pmb P)\pmb y=\pmb M\pmb y
eee=(IIIn??PPP)y?y??y=MMMy?y??y \pmb M被称为消灭矩阵(
M
\pmb M
MMM左乘任何向量得到该向量投影后的残差向量)。 根据消灭矩阵的性质,可以得到
e
=
M
?
\pmb e=\pmb M\pmb \epsilon
eee=MMM???
S
S
R
=
?
T
M
?
SSR=\pmb \epsilon^T\pmb M \pmb\epsilon
SSR=???TMMM???
拟合优度
拟合优度
R
2
R^2
R2(可决系数)为
0
≤
R
2
=
∑
(
y
i
^
?
y
ˉ
)
2
∑
(
y
i
?
y
ˉ
)
2
=
1
?
∑
e
i
2
∑
(
y
i
?
y
ˉ
)
2
≤
1
0\le R^2=\frac{\sum(\hat {y_i}-\bar{y})^2}{\sum(y_i-\bar y)^2}=1-\frac{\sum e_i^2}{\sum(y_i-\bar y)^2}\le 1
0≤R2=∑(yi??yˉ?)2∑(yi?^??yˉ?)2?=1?∑(yi??yˉ?)2∑ei2??≤1 有常数项情况下,
R
2
=
[
C
o
r
r
(
y
i
,
y
i
^
)
]
2
R^2=[Corr(y_i,\hat{y_i})]^2
R2=[Corr(yi?,yi?^?)]2,拟合优度越大拟合程度越好。考虑到调整自由度以对解释变量过多进行惩罚,定义校正拟合优度为
R
2
ˉ
=
1
?
∑
e
i
2
/
(
n
?
K
)
∑
(
y
i
?
y
ˉ
)
2
/
(
n
?
1
)
\bar {R^2}=1-\frac{\sum e_i^2/(n-K)}{\sum(y_i-\bar y)^2/(n-1)}
R2ˉ=1?∑(yi??yˉ?)2/(n?1)∑ei2?/(n?K)?。 校正拟合优度可能为负数。如果回归模型中没有常数项,平方和分解不成立,此时可以计算非中心R
R
u
c
2
=
y
^
T
y
^
y
T
y
=
1
?
e
^
T
e
^
y
T
y
R^2_{uc}=\frac{\pmb{\hat y}^T\pmb{\hat y}}{\pmb y^T\pmb y}=1-\frac{\pmb{\hat e}^T\pmb{\hat e}}{\pmb y^T\pmb y}
Ruc2?=y?y??yTy?y??yy^??y^???y^?Ty^??y^???y^??=1?y?y??yTy?y??ye^e^e^Te^e^e^?
OLS的小样本性质
- 线性性:OLS估计量
b
\pmb b
bbb为
y
\pmb y
y?y??y的线性组合。
- 无偏性:
E
(
b
∣
X
)
=
β
E(\pmb b|\pmb X)=\pmb \beta
E(bbb∣XXX)=β?β??β(严格外生性)
- 估计量
b
\pmb b
bbb的方差为
V
a
r
(
b
∣
X
)
=
σ
2
(
X
T
X
)
?
1
Var (\pmb b|\pmb X)=\sigma^2(\pmb X^T\pmb X)^-1
Var(bbb∣XXX)=σ2(XXXTXXX)?1(球形扰动假定)
- 高斯-马尔科夫定理:最小二乘法是最佳线性无偏估计(BLUE),即在所有线性无偏估计中方差最小。(球形扰动假定)
- 方差无偏估计:
E
(
s
2
∣
X
)
=
σ
2
E(s^2|\pmb X)=\sigma^2
E(s2∣XXX)=σ2
t检验
假设给定
X
\pmb X
XXX的情况下,
?
∣
X
\pmb \epsilon|\pmb X
???∣XXX~
N
(
0
,
σ
2
I
n
)
N(\pmb 0,\sigma^2\pmb I_n)
N(000,σ2IIIn?)。 如果
σ
2
\sigma^2
σ2已知,则可以构建的统计量
b
k
?
β
k
ˉ
σ
2
(
X
T
X
)
k
k
?
1
~
N
(
0
,
1
)
\frac{b_k-\bar{\beta_k}}{\sqrt{\sigma^2(\pmb X^T\pmb X)_{kk}^{-1}}}\sim N(0,1)
σ2(XXXTXXX)kk?1?
?bk??βk?ˉ??~N(0,1) 然而,通常情况下
σ
2
\sigma^2
σ2是未知的,此时只能用
s
2
s^2
s2来代替
σ
2
\sigma^2
σ2。
t
k
=
b
k
?
β
k
ˉ
s
2
(
X
T
X
)
k
k
?
1
~
N
(
0
,
1
)
t_k=\frac{b_k-\bar{\beta_k}}{\sqrt{s^2(\pmb X^T\pmb X)_{kk}^{-1}}}\sim N(0,1)
tk?=s2(XXXTXXX)kk?1?
?bk??βk?ˉ??~N(0,1) 此处的证明主要考虑两个方面:卡方分布的证明与分子分母分布的独立性证明。其中独立性证明需要用到二维正态分布的情况下协方差为0可以推出独立。对于正态分布,不相关就意味着独立。 t检验的步骤略过。 I类错误为原假设为真但拒绝原假设,II类错误为备择假设为真但接受原假设。二者存在此消彼长的关系。显著性水平指的是发生I类错误的概率。 称1减去第II类错误发生的概率为统计检验的功效或势(power)。
F检验
F检验用于检验回归系数的
m
m
m个线性假设是否同时成立:
H
0
:
R
β
=
r
H_0:\pmb R\pmb \beta=\pmb r
H0?:RRRβ?β??β=rrr 其中
R
\pmb R
RRR为
m
×
K
m\times K
m×K矩阵且
r
a
n
k
(
R
)
=
m
{\rm rank}(\pmb R)=m
rank(RRR)=m,即
R
\pmb R
RRR行满秩,
r
\pmb r
rrr为
m
m
m维列向量。 可以构造如下的统计量
F
=
(
R
b
?
r
)
T
[
R
(
X
T
X
)
?
1
R
T
]
?
1
(
R
b
?
r
)
/
m
s
2
~
F
(
m
,
n
?
K
)
F=\frac{(\pmb R\pmb b-\pmb r)^T[\pmb R(\pmb X^T \pmb X)^-1\pmb R^T]^{-1}(\pmb R\pmb b-\pmb r)/m}{s^2}\sim F(m,n-K)
F=s2(RRRbbb?rrr)T[RRR(XXXTXXX)?1RRRT]?1(RRRbbb?rrr)/m?~F(m,n?K) 检验原假设
H
0
:
β
2
=
?
=
β
k
=
0
H_0:\beta_2=\cdots=\beta_k=0
H0?:β2?=?=βk?=0(即该方程的显著性)的
F
F
F统计量等于
R
2
/
K
?
1
(
1
?
R
2
)
/
(
n
?
K
)
\frac{R^2/K-1}{(1-R^2)/(n-K)}
(1?R2)/(n?K)R2/K?1?
分块回归
FWL定理: 将多元回归模型写为
y
=
X
β
+
?
=
X
1
β
1
+
X
2
β
2
+
?
\pmb y=\pmb X\pmb\beta+\pmb \epsilon=\pmb X_1\pmb\beta_1+\pmb X_2\pmb\beta_2+\pmb \epsilon
y?y??y=XXXβ?β??β+???=XXX1?β?β??β1?+XXX2?β?β??β2?+??? 为了知道
X
2
\pmb X_2
XXX2?的边际影响,首先将
y
\pmb y
y?y??y对
X
1
\pmb X_1
XXX1?进行回归,所得残差为
e
1
\pmb e_1
eee1?,即
y
\pmb y
y?y??y中不能由
X
1
\pmb X_1
XXX1?解释的部分;再将
X
2
\pmb X_2
XXX2?中的每个变量分别对
X
1
\pmb X_1
XXX1?进行回归,所得残差为残差矩阵
e
2
\pmb e_2
eee2?,即
X
2
\pmb X_2
XXX2?中不能由
X
1
\pmb X_1
XXX1?解释的部分。最后将
e
1
\pmb e_1
eee1?对
e
2
\pmb e_2
eee2?进行回归,即
X
2
\pmb X_2
XXX2?中不能由
X
1
\pmb X_1
XXX1?解释的部分对
y
\pmb y
y?y??y中不能由
X
1
\pmb X_1
XXX1?解释的部分的解释力,这一步回归中,
e
2
\pmb e_2
eee2?的系数就是
b
2
\pmb b_2
bbb2?,即
β
2
\pmb \beta_2
β?β??β2?的估计量。 此结果揭示了变量
z
\pmb z
zzz的回归系数的含义,即表示“滤去其他变量
X
1
\pmb X_1
XXX1?影响的
z
\pmb z
zzz”对“滤去其他变量
X
1
\pmb X_1
XXX1?影响的
y
\pmb y
y?y??y”的作用。
预测
可以使用
y
^
0
=
x
0
T
β
+
?
0
\hat y_0=\pmb x_0^T\pmb \beta+\epsilon_0
y^?0?=xxx0T?β?β??β+?0?来对
y
0
y_0
y0?进行点预测。假设扰动服从正态分布,则得到t统计量来根据置信度计算置信区间。
习题
3.1 证明:
P
X
=
X
(
X
T
X
)
?
1
X
T
X
=
X
PX=X(X^TX)^{-1}X^TX=X
PX=X(XTX)?1XTX=X
P
e
=
X
(
X
T
X
)
?
1
X
T
e
=
X
(
X
T
X
)
?
1
0
=
0
Pe=X(X^TX)^{-1}X^Te=X(X^TX)^{-1}0=0
Pe=X(XTX)?1XTe=X(XTX)?10=0
M
X
=
(
I
n
?
P
)
X
=
X
?
P
X
=
X
?
X
=
0
MX=(I_n-P)X=X-PX=X-X=0
MX=(In??P)X=X?PX=X?X=0
P
T
=
(
X
(
X
T
X
)
?
1
X
T
)
T
=
X
(
X
T
X
)
?
1
X
T
=
P
P^T=(X(X^TX)^{-1}X^T)^T=X(X^TX)^{-1}X^T=P
PT=(X(XTX)?1XT)T=X(XTX)?1XT=P
M
T
=
(
I
n
?
P
)
T
M^T=(I_n-P)^T
MT=(In??P)T由于
I
n
I_n
In?和
P
P
P均为对称阵,
M
M
M也为对称阵
P
2
=
X
(
X
T
X
)
?
1
X
T
X
(
X
T
X
)
?
1
X
T
=
X
(
X
T
X
)
?
1
X
T
=
P
P^2=X(X^TX)^{-1}X^TX(X^TX)^{-1}X^T=X(X^TX)^{-1}X^T=P
P2=X(XTX)?1XTX(XTX)?1XT=X(XTX)?1XT=P
M
2
=
(
I
n
?
P
)
2
=
I
n
?
2
P
+
P
2
=
I
n
?
P
=
M
M^2=(I_n-P)^2=I_n-2P+P^2=I_n-P=M
M2=(In??P)2=In??2P+P2=In??P=M
3.6 假设
n
n
n阶对称矩阵
A
\pmb A
AAA半正定,则
A
\pmb A
AAA的任何主对角线元素均为非负。 因为
A
\pmb A
AAA半正定,所以其任何顺序主子式均非负。其1阶顺序主子式非负,而其他主对角线元素可以通过矩阵初等变换移至1阶顺序主子式的位置而不改变其半正定性,因此所有主对角线元素均为非负的。
|