1.线性回归
问题定义:给定数据集
D
=
(
x
1
,
y
1
)
,
x
2
,
y
2
,
.
.
.
.
.
.
,
(
x
m
,
y
m
)
D={(x_1,y_1),x_2,y_2,......,(x_m,y_m)}
D=(x1?,y1?),x2?,y2?,......,(xm?,ym?),其中,
x
i
=
(
x
i
1
;
x
i
2
;
.
.
.
.
.
.
;
x
i
d
,
y
i
∈
?
x_i = (x_{i_1};x_{i_2};......;x_{i_d},y_i \in \Re
xi?=(xi1??;xi2??;......;xid??,yi?∈?.“线性回归”(linear model)的目标即预测实值输出标记(该值为连续性数值)。
线性回归试图使
f
(
x
i
)
=
w
x
i
+
b
f(x_i)=wx_i+b
f(xi?)=wxi?+b,使得
f
(
x
i
)
?
y
i
f(x_i) \simeq y_i
f(xi?)?yi?。 怎么确定
w
,
b
w,b
w,b呢?关键在于衡量
f
(
x
)
与
y
f(x)与y
f(x)与y之间的差异。西瓜书中用均方误差来度量
f
(
x
i
)
f(x_i)
f(xi?)与
y
y
y之间的差异,基于均方误差最小化来进行模型求解的方法被称为“最小二乘法”,所以线性回归又被称为最小二乘回归。
(
w
?
,
b
?
)
(w^*,b^*)
(w?,b?)
=
a
r
g
m
i
n
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
?
y
i
)
2
=argmin_{(w,b)} \sum_{i=1}^m (f(x_i)-y_i)^2
=argmin(w,b)?∑i=1m?(f(xi?)?yi?)2
=
a
r
g
m
i
n
(
w
,
b
)
∑
i
=
1
m
(
y
i
?
w
x
i
?
b
)
2
=argmin_{(w,b)} \sum_{i=1}^m (y_i-wx_i-b)^2
=argmin(w,b)?∑i=1m?(yi??wxi??b)2
2.对数几率回归
对数几率回归,虽然这个算法从名字上来看,是回归算法,但其实际上是一个分类算法。 问题定义:考虑二分类任务,其输出标记
y
∈
{
0
,
1
}
y \in \{0,1\}
y∈{0,1},而 前面的线性回归模型产生的预测值
z
=
w
T
x
+
b
z =w^Tx+b
z=wTx+b是连续实值。
通过sigmoid函数
y
=
1
1
+
e
?
(
w
T
x
+
b
)
y = \frac{1}{1+e^{-(w^Tx+b)}}
y=1+e?(wTx+b)1?就把线性回归表达式的实值输出结果压缩成了一个0-1之间的小数。但这样还是没有实现分类的效果,所以我们需要加一个“阈值“,若输出值大于这个阈值,那么就将其结果判断为1,反之判断为0,一般这个“阈值“都是0.5。 该sigmoid函数可变化为:
l
n
y
1
?
y
=
w
T
x
+
b
ln\frac{y}{1-y} = w^Tx+b
ln1?yy?=wTx+b 若将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值称为几率,反映了x作为正例的相对可能性,取对数则得到对数几率
l
n
y
1
?
y
ln\frac{y}{1-y}
ln1?yy? 那么如何确定w,b呢?
l
n
y
1
?
y
=
w
T
x
+
b
ln\frac{y}{1-y} = w^Tx+b
ln1?yy?=wTx+b
l
n
p
(
y
=
1
∣
x
)
p
(
y
=
0
∣
x
)
=
w
T
x
+
b
ln\frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b
lnp(y=0∣x)p(y=1∣x)?=wTx+b 显然有
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}
p(y=1∣x)=1+ewTx+bewTx+b?
p
(
y
=
1
∣
x
)
=
1
1
+
e
w
T
x
+
b
p(y=1|x)=\frac{1}{1+e^{w^Tx+b}}
p(y=1∣x)=1+ewTx+b1? 可以通过极大似然估计法来估计
w
,
b
w,b
w,b.给定数据集
{
(
x
i
,
y
i
)
}
i
=
1
m
\{(x_i,y_i)\}_{i=1}^m
{(xi?,yi?)}i=1m?, 似然函数
ψ
(
w
,
b
)
=
∑
i
=
1
m
l
n
p
(
y
i
∣
x
i
;
w
,
b
)
\psi(w,b) = \sum_{i=1}^m lnp(y_i|x_i;w,b)
ψ(w,b)=∑i=1m?lnp(yi?∣xi?;w,b) 即令每个样本属于其真实标记的概率越大越好。 为了方便,令
β
=
(
w
;
b
)
,
x
^
=
(
x
;
1
)
\beta = (w;b),\hat{x}=(x;1)
β=(w;b),x^=(x;1),则
w
T
x
+
b
w^Tx+b
wTx+b可简写为
β
T
x
^
\beta^T\hat{x}
βTx^,再令
p
1
(
x
^
;
β
)
=
p
(
y
=
1
∣
x
^
;
β
)
p_1(\hat{x};\beta)=p(y=1|\hat{x};\beta)
p1?(x^;β)=p(y=1∣x^;β),
p
0
(
x
^
;
β
)
=
p
(
y
=
0
∣
x
^
;
β
)
=
1
?
p
1
(
y
=
1
∣
x
^
;
β
)
p_0(\hat{x};\beta)=p(y=0|\hat{x};\beta)=1-p_1(y=1|\hat{x};\beta)
p0?(x^;β)=p(y=0∣x^;β)=1?p1?(y=1∣x^;β),则上述似然函数中的似然项可写为:
p
(
y
i
∣
x
i
;
w
,
b
)
=
y
i
p
1
(
x
i
^
;
β
)
+
(
1
?
y
i
)
p
0
(
x
i
^
;
β
)
p(y_i|x_i;w,b)=y_ip_1(\hat{x_i};\beta)+(1-y_i)p_0(\hat{x_i};\beta)
p(yi?∣xi?;w,b)=yi?p1?(xi?^?;β)+(1?yi?)p0?(xi?^?;β) 最后可得式子
ψ
(
β
)
=
∑
i
=
1
m
(
?
y
i
β
T
x
i
^
+
l
n
(
1
+
e
β
T
x
i
^
)
)
\psi(\beta)=\sum_{i=1}^m(-y_i \beta^T \hat{x_i}+ln(1+e^{\beta^T\hat{x_i}}))
ψ(β)=i=1∑m?(?yi?βTxi?^?+ln(1+eβTxi?^?)) 最小化该式即可得到
β
\beta
β。
|