一、局部加权线性回归
由来及原理
原始线性回归目标函数:
J
(
θ
)
=
1
2
Σ
i
=
1
m
(
h
θ
(
x
(
i
)
)
?
y
(
i
)
)
2
J(θ) = \frac12Σ_{i=1}^{m}(h_θ(x^{(i)}) - y^{(i)})^2
J(θ)=21?Σi=1m?(hθ?(x(i))?y(i))2
局部加权线性回归目标函数:
J
(
θ
)
=
1
2
Σ
i
=
1
m
ω
(
i
)
(
h
θ
(
x
(
i
)
)
?
y
(
i
)
)
2
J(θ) = \frac12Σ_{i=1}^{m}\omega ^{(i)}(h_θ(x^{(i)}) - y^{(i)})^2
J(θ)=21?Σi=1m?ω(i)(hθ?(x(i))?y(i))2 两者的区别在于后者多了权值
ω
(
i
)
\omega ^{(i)}
ω(i),
ω
(
i
)
\omega ^{(i)}
ω(i)可以控制第i个样本预测误差对于目标函数的影响。 局部加权线性回归的思想是:对某样本做预测时,重点关注该样本附近的样本,给予它们较高的
ω
(
i
)
\omega ^{(i)}
ω(i)。因此
ω
(
i
)
\omega ^{(i)}
ω(i)的具体形式如下所示:
ω
i
=
e
x
p
(
?
(
x
i
?
x
)
2
2
τ
2
)
\omega^{i} = exp(-\frac{(x^{i}-x)^2}{2τ^2})
ωi=exp(?2τ2(xi?x)2?)
如图,越靠近x的样本获得
ω
\omega
ω越大,训练时它们起到的作用也越大。 其中
τ
τ
τ为波长参数,
τ
τ
τ越大远距离样本下降速度越快,远距离样本的作用越小。 注:该函数与高斯函数无关,不存在积分为1的性质。
缺点
局部加权回归每次预测新样本时,需要重新学习所有的样本,根据样本和权重重新确定参数θ,因此会花费较多时间,不适用于大规模数据集的情况。
非参数算法
对于线性回归算法,一旦拟合出适合训练数据的参数,保存这些参数,对于之后的预测,不需要再使用原始训练数据集,所以是参数学习算法。 对于局部加权线性回归算法,每次进行预测都需要全部的训练数据(每次进行的预测得到不同的参数θ),没有固定的参数θ,所以是非参数算法。
引用及参考: [1] https://www.cnblogs.com/czdbest/p/5767138.html
|