参考链接 作业详情链接 参考学习的教案链接
1、最小二乘法的表达式: 假设研究的问题有n个样本。
X
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
T
X=(x_1,x_2,...,x_n)^T
X=(x1?,x2?,...,xn?)T
Y
=
(
y
1
,
y
2
,
.
.
.
,
y
n
)
T
Y=(y_1,y_2,...,y_n)^T
Y=(y1?,y2?,...,yn?)T
L
(
W
)
=
1
2
(
X
W
?
Y
)
T
(
X
W
?
Y
)
L(W)=\frac{1}{2}(XW-Y)^T(XW-Y)
L(W)=21?(XW?Y)T(XW?Y)
2、极大似然估计和最小二乘法的关系? 个人认为,两者本质上是同一个问题,极大似然估计是针对概率密度函数
P
(
Y
∣
X
,
W
)
P(Y|X,W)
P(Y∣X,W)寻找到使得P最大的W,也就是最优的W。同理,最小二乘法是找到使得L(W)最小的W,也就是最优的W. 只不过二者的出发点不同,极大似然估计是从概率的角度出发,求解的也是已知的概率密度函数,而最小二乘法是优化的L(W)。 如果假设这个概率密度模型是
N
~
(
μ
,
σ
2
)
N\sim (\mu,\sigma^2)
N~(μ,σ2),那么根据正态分布的密度函数可以类比写出:
1
2
π
σ
e
x
p
(
?
(
Y
?
X
W
?
0
)
2
2
σ
2
)
→
1
2
π
σ
e
x
p
(
?
(
Y
?
μ
)
2
2
σ
2
)
,
其
中
假
设
μ
=
X
W
\frac{1}{\sqrt{2\pi \sigma}}exp(-\frac{(Y-XW-0)^2}{2\sigma^2})\to \frac{1}{\sqrt{2\pi \sigma}}exp(-\frac{(Y-\mu)^2}{2\sigma^2}),其中假设\mu = XW
2πσ
?1?exp(?2σ2(Y?XW?0)2?)→2πσ
?1?exp(?2σ2(Y?μ)2?),其中假设μ=XW. 根据正态分布的性质可得:
μ
\mu
μ越接近
Y
Y
Y即
(
Y
?
W
X
)
2
(Y-WX)^2
(Y?WX)2值越小,则概率值越大,也就是求解
μ
\mu
μ的极大似然估计。
3、为什么多项式回归在实际问题中表现不好? 多项式回归容易受到异常值的影响,在数据密度较少的区域会产生很大的波动。
4、什么是KKT条件?
Karush-Kuhn-Tucker (KKT)条件是非线性规划(nonlinear programming)最佳解的必要条件。也就是最优解
x
?
x^*
x?必满足KKT条件,但是满足KKT条件的点未必是最优解。 证明: 针对这样的一个不等式约束问题:
min
?
f
(
x
)
s
.
t
.
g
i
(
x
)
≤
0
,
i
=
1
,
2
,
.
.
.
,
m
h
j
(
x
)
=
0
,
j
=
1
,
2
,
.
.
.
,
l
\min f(x)\\ s.t. g_i(x)\leq 0,i=1,2,...,m\\ h_j(x) = 0,j=1,2,...,l
minf(x)s.t.gi?(x)≤0,i=1,2,...,mhj?(x)=0,j=1,2,...,l 假设
x
?
x*
x?是最优解。同时定义可行域
K
=
x
∣
g
i
(
x
)
≤
0
,
i
=
1
,
2
,
.
.
.
,
m
,
h
j
(
x
)
=
0
,
j
=
1
,
2
,
.
.
.
,
l
K={x| g_i(x)\leq 0,i=1,2,...,m,h_j(x) = 0,j=1,2,...,l}
K=x∣gi?(x)≤0,i=1,2,...,m,hj?(x)=0,j=1,2,...,l
- 如果
x
?
x^*
x?在可行域内,那么该优化问题就退化为无约束优化问题。则
?
f
(
x
?
)
=
0
\nabla f(x^*) =0
?f(x?)=0.
- 如果
x
?
x^*
x?在可行域边界上,则梯度
?
f
(
x
)
\nabla f(x)
?f(x)是指向可行域内部的,而
?
g
(
x
)
\nabla g(x)
?g(x)是指向可行域外部(这是因为
g
i
(
x
)
≤
0
g_i(x)\leq 0
gi?(x)≤0)。
所以可以写出
?
f
(
x
)
=
∑
i
λ
i
?
g
i
(
x
)
\nabla f(x) = \sum_i \lambda_i \nabla g_i(x)
?f(x)=∑i?λi??gi?(x). 根据拉格朗日乘子法:
L
(
x
,
λ
,
μ
)
=
f
(
x
)
+
∑
i
λ
i
g
i
(
x
)
+
∑
j
μ
j
h
j
(
x
)
L(x,\lambda,\mu) =f(x) + \sum_i \lambda_i g_i(x) + \sum_j\mu_j h_j(x)
L(x,λ,μ)=f(x)+∑i?λi?gi?(x)+∑j?μj?hj?(x) 所以可以写出最优化问题的KKT条件:
?
x
L
=
0
(
对
偶
条
件
)
h
j
(
x
)
=
0
,
j
=
1
,
2
,
.
.
.
,
l
g
i
(
x
)
≤
0
,
i
=
1
,
2
,
.
.
.
,
m
λ
i
≥
0
,
i
=
1
,
2
,
.
.
.
,
m
(
对
偶
条
件
)
λ
i
g
i
(
x
)
=
0
,
i
=
1
,
2
,
.
.
.
,
m
(
互
补
松
弛
定
理
)
\nabla_x L = 0 (对偶条件)\\ h_j(x) = 0,j=1,2,...,l\\ g_i(x) \leq 0,i=1,2,...,m\\ \lambda_i \geq 0,i=1,2,...,m(对偶条件)\\ \lambda_i g_i(x) =0,i=1,2,...,m (互补松弛定理)
?x?L=0(对偶条件)hj?(x)=0,j=1,2,...,lgi?(x)≤0,i=1,2,...,mλi?≥0,i=1,2,...,m(对偶条件)λi?gi?(x)=0,i=1,2,...,m(互补松弛定理)
5、为什么引入原问题的偶问题?
- 灵敏度分析
- 根据弱对偶理论或者强对偶理论,帮助计算原问题。
|