岭回归推导
优化目标为
arg
?
min
?
L
(
w
)
=
arg
?
min
?
w
∥
X
w
?
Y
∥
2
2
+
λ
∥
w
∥
2
2
\arg\min{\mathcal{L}(\mathbf{w})}= \underset{\mathbf{w}}{{\arg\min}}\|\mathbf{X}\mathbf{w}-\mathbf{Y}\|^2_2+\lambda\|\mathbf{w}\|^2_2
argminL(w)=wargmin?∥Xw?Y∥22?+λ∥w∥22?
L
(
w
)
=
(
X
w
?
Y
)
T
(
X
w
?
Y
)
+
λ
w
T
w
=
w
T
X
T
X
w
?
Y
T
X
w
?
w
T
X
T
Y
+
Y
T
+
Y
T
Y
+
λ
w
T
w
\mathcal{L}(\mathbf{w})=(\mathbf{X}\mathbf{w}-\mathbf{Y})^{\mathsf{T}}(\mathbf{X}\mathbf{w}-\mathbf{Y})+\lambda \mathbf{w}^{\mathsf{T}}\mathbf{w}=\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{Y}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{Y}+\mathbf{Y}^{\mathsf{T}}+\mathbf{Y}^{\mathsf{T}}\mathbf{Y}+\lambda \mathbf{w}^{\mathsf{T}} \mathbf{w}
L(w)=(Xw?Y)T(Xw?Y)+λwTw=wTXTXw?YTXw?wTXTY+YT+YTY+λwTw
即令
?
L
?
w
=
2
X
T
X
w
?
X
T
Y
?
X
T
Y
?
2
λ
w
=
X
T
X
w
?
X
T
Y
?
λ
w
=
0
\frac{\partial\mathcal{L}}{\partial\mathbf{w}}=2\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-2\lambda\mathbf{w}=\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\lambda\mathbf{w}=0
?w?L?=2XTXw?XTY?XTY?2λw=XTXw?XTY?λw=0?
因此
w
=
(
X
T
X
+
λ
I
)
?
1
X
T
Y
\mathbf{w}=(\mathbf{X}^{\mathsf{T}}\mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^{\mathsf{T}}\mathbf{Y}
w=(XTX+λI)?1XTY