原疑惑.
- 已知
Y
=
X
T
β
+
?
Y=X^T\beta+\epsilon
Y=XTβ+?,最小二乘法得到参数
β
^
=
(
X
T
X
)
?
1
X
T
y
.
\hat\beta=(\bm X^T\bm X)^{-1}\bm X^T\bm y.
β^?=(XTX)?1XTy.
- 为什么
y
^
0
=
x
0
T
β
^
\hat y_0=x^T_0\hat\beta
y^?0?=x0T?β^? 可以写为:
y
^
0
=
x
0
T
β
+
∑
i
=
1
N
l
i
(
x
0
)
?
i
(*)
\hat y_0=x^T_0\beta+\sum_{i=1}^Nl_i(x_0)\epsilon_i\tag{*}
y^?0?=x0T?β+i=1∑N?li?(x0?)?i?(*)其中
l
i
(
x
0
)
l_i(x_0)
li?(x0?) 是
X
(
X
T
X
)
?
1
x
0
\bm X(\bm X^T\bm X)^{-1}x_0
X(XTX)?1x0? 的第
i
i
i 个元素。
解释.
- 这里假设
Y
,
X
Y,X
Y,X 满足线性关系,其中
?
\epsilon
? 表示随机误差,服从均值为零的高斯分布。
Y
=
X
T
β
+
?
Y = X^T\beta+\epsilon
Y=XTβ+? 表示的是单个样本
(
X
,
Y
)
(X,Y)
(X,Y) 的关系,即线性模型预测值与真实值之间存在着随机误差。
- 如果将上述关系推广到整个样本集,即
X
∈
R
N
×
p
,
y
∈
R
N
×
1
\bm X\in\mathbb R^{N\times p},\bm y\in\mathbb R^{N\times 1}
X∈RN×p,y∈RN×1,则有:
y
=
X
β
+
?
(1)
\bm y = \bm X\beta+\bm\epsilon\tag{1}
y=Xβ+?(1)
- 将
(
?
)
(*)
(?) 改写为如下形式:
y
^
0
=
x
0
T
β
+
(
X
(
X
T
X
)
?
1
x
0
)
T
?
=
x
0
T
β
+
x
0
T
(
X
T
X
)
?
1
X
T
?
(2)
\hat y_0=x_0^T\beta+\Big(\bm X\big(\bm X^T\bm X\big)^{-1}x_0\Big)^T\bm\epsilon=x_0^T\beta+x_0^T(\bm X^T\bm X\big)^{-1}\bm X^T\bm\epsilon\tag{2}
y^?0?=x0T?β+(X(XTX)?1x0?)T?=x0T?β+x0T?(XTX)?1XT?(2)
- 最小二乘法得到的参数
β
^
=
(
X
T
X
)
?
1
X
T
y
\hat\beta=(\bm X^T\bm X\big)^{-1}\bm X^T\bm y
β^?=(XTX)?1XTy,将
(
1
)
(1)
(1) 代入,得到:
β
^
=
(
X
T
X
)
?
1
X
T
X
β
+
(
X
T
X
)
?
1
X
T
?
=
β
+
(
X
T
X
)
?
1
X
T
?
(3)
\hat\beta=(\bm X^T\bm X\big)^{-1}\bm X^T\bm X\beta+(\bm X^T\bm X\big)^{-1}\bm X^T\bm\epsilon=\beta+(\bm X^T\bm X\big)^{-1}\bm X^T\bm\epsilon\tag{3}
β^?=(XTX)?1XTXβ+(XTX)?1XT?=β+(XTX)?1XT?(3)
- 将
(
3
)
(3)
(3) 代入
y
^
0
=
x
0
T
β
^
\hat y_0=x_0^T\hat\beta
y^?0?=x0T?β^? 得到:
y
^
0
=
x
0
T
β
+
x
0
T
(
X
T
X
)
?
1
X
T
?
\hat y_0=x_0^T\beta+x_0^T(\bm X^T\bm X\big)^{-1}\bm X^T\bm\epsilon
y^?0?=x0T?β+x0T?(XTX)?1XT?因此
(
?
)
(*)
(?) 确实成立。
|