线性分类
频率派: 线性回归 / 线性分类
贝叶斯派:概率图
线性: 属性非线性 / 全局非线性 / 系数非线性
线性分类模式: 硬分类 / 软分类
硬分类:主观的给出直线划分,指定属于哪个类,(例如: 感知机,线性判别)
软分类:概率判断:如逻辑回归 / 生成类:如朴素贝叶斯
一:硬分类
1.1感知机
找到一条分界线,分割不同类别
原理:错误驱动
迭代公式:
损
失
函
数
L
(
w
)
=
∑
i
=
1
n
(
y
i
W
x
i
<
0
)
y
i
W
x
i
<
0
代
表
分
类
错
误
当
点
刚
好
落
在
y
直
线
的
时
候
,
y
i
W
x
i
=
0
当
点
落
在
y
直
线
上
方
的
时
候
,
W
x
i
>
0
,
同
时
y
>
0
当
点
落
在
y
直
线
下
方
的
时
候
,
W
x
i
<
0
,
同
时
y
<
0
所
以
:
分
类
正
确
的
时
候
y
i
W
x
i
>
0
,
分
类
错
误
的
时
候
y
i
W
x
i
<
0
损失函数 L(w) = \sum_{i=1}^{n}(y_iWx_i<0) \\ y_iWx_i<0 代表分类错误 \\ 当点刚好落在 y直线的时候,y_iWx_i=0 \\ 当点落在 y直线上方的时候,Wx_i>0,同时y>0 \\ 当点落在 y直线下方的时候,Wx_i<0,同时y<0 \\ 所以:分类正确的时候y_iWx_i>0,分类错误的时候y_iWx_i<0
损失函数L(w)=i=1∑n?(yi?Wxi?<0)yi?Wxi?<0代表分类错误当点刚好落在y直线的时候,yi?Wxi?=0当点落在y直线上方的时候,Wxi?>0,同时y>0当点落在y直线下方的时候,Wxi?<0,同时y<0所以:分类正确的时候yi?Wxi?>0,分类错误的时候yi?Wxi?<0
问题:损失函数是一个离散函数,不可导,
解决:梯度下降
1.2:线性判别
原理:类似于PCA,CDA,类内小,类间大
类内小:方差衡量
类间大:均值之差衡量
公式推导:
投
影
点
:
x
i
W
=
∣
x
i
∣
∣
w
∣
c
o
s
θ
=
∣
x
i
∣
c
o
s
θ
均
值
μ
=
1
n
∑
i
=
1
n
W
T
x
i
方
差
s
=
1
n
∑
i
=
1
n
(
μ
i
?
μ
)
(
μ
i
?
μ
)
T
目
标
:
1.
类
间
差
距
大
,
用
均
值
之
差
(
μ
1
?
μ
2
)
2
,
使
用
平
方
是
因
为
绝
对
值
不
可
导
2.
类
内
差
异
小
,
用
方
差
之
和
下
(
s
1
+
s
2
)
最
终
损
失
函
数
f
(
x
)
=
(
z
1
?
z
2
)
2
s
1
+
s
2
,
目
标
是
损
失
函
数
越
小
越
好
,
所
以
s
1
+
s
2
越
大
,
(
z
1
?
z
2
)
2
越
小
越
好
如
何
满
足
损
失
函
数
的
结
果
:
梯
度
下
降
投影点:x_iW = |x_i||w|cosθ=|x_i|cosθ \\ 均值 μ = \frac{1}{n}\sum_{i=1}^{n}W^Tx_i \\ 方差 s = \frac{1}{n}\sum_{i=1}^{n}(μ_i-μ)(μ_i-μ)^T \\ 目标: \\ 1.类间差距大,用均值之差(μ_1-μ_2)^2 , 使用平方是因为绝对值不可导 \\ 2.类内差异小,用方差之和下(s_1+s_2) \\ 最终损失函数 f(x) = \frac{(z_1-z_2)^2}{s_1+s_2},目标是损失函数越小越好,所以s_1+s_2越大,(z_1-z_2)^2越小越好 \\ 如何满足损失函数的结果: 梯度下降
投影点:xi?W=∣xi?∣∣w∣cosθ=∣xi?∣cosθ均值μ=n1?i=1∑n?WTxi?方差s=n1?i=1∑n?(μi??μ)(μi??μ)T目标:1.类间差距大,用均值之差(μ1??μ2?)2,使用平方是因为绝对值不可导2.类内差异小,用方差之和下(s1?+s2?)最终损失函数f(x)=s1?+s2?(z1??z2?)2?,目标是损失函数越小越好,所以s1?+s2?越大,(z1??z2?)2越小越好如何满足损失函数的结果:梯度下降
二:软分类
判别模型:逻辑回归
生成模型:高斯判别分类
2.1 判别模型
二分类:
P
(
C
1
∣
X
)
=
P
(
X
∣
C
1
)
P
(
C
1
)
P
(
X
∣
C
1
)
P
(
C
1
)
+
P
(
X
∣
C
2
)
p
(
c
2
)
=
1
1
+
P
(
X
∣
C
2
)
P
(
C
2
)
P
(
X
∣
C
1
)
P
(
C
1
)
假
设
:
a
=
P
(
X
∣
C
2
)
P
(
C
2
)
P
(
X
∣
C
1
)
P
(
C
1
)
,
则
P
(
C
1
∣
X
)
=
1
1
+
a
求
导
之
后
=
?
1
(
1
+
a
)
2
又
假
设
:
a
=
e
?
b
,
则
P
(
C
1
∣
X
)
=
1
1
+
e
x
p
(
?
b
)
又
假
设
b
=
?
W
T
x
,
则
P
(
C
1
∣
X
)
=
1
1
+
e
x
p
(
?
W
T
x
)
所
以
P
(
C
2
∣
X
)
=
1
?
P
(
C
1
∣
X
)
=
e
x
p
(
?
W
T
x
)
1
+
e
x
p
(
?
W
T
x
)
P(C1|X)=\frac{P(X|C1)P(C1)}{P(X|C1)P(C1)+P(X|C2)p(c2)}=\frac{1}{1+\frac{P(X|C2)P(C2)}{P(X|C1)P(C1)}} \\ 假设: a = \frac{P(X|C2)P(C2)}{P(X|C1)P(C1)} , 则 P(C1|X)=\frac{1}{1+a} 求导之后 = -\frac{1}{(1+a)^2} \\ 又假设:a=e^{-b} ,则 P(C1|X)=\frac{1}{1+exp^{(-b)}} \\ 又假设 b = -W^Tx , 则 P(C1|X)=\frac{1}{1+exp^{(-W^Tx)}} \\ 所以P(C2|X) = 1-P(C1|X) = \frac{exp^{(-W^Tx)}}{1+exp^{(-W^Tx)}}
P(C1∣X)=P(X∣C1)P(C1)+P(X∣C2)p(c2)P(X∣C1)P(C1)?=1+P(X∣C1)P(C1)P(X∣C2)P(C2)?1?假设:a=P(X∣C1)P(C1)P(X∣C2)P(C2)?,则P(C1∣X)=1+a1?求导之后=?(1+a)21?又假设:a=e?b,则P(C1∣X)=1+exp(?b)1?又假设b=?WTx,则P(C1∣X)=1+exp(?WTx)1?所以P(C2∣X)=1?P(C1∣X)=1+exp(?WTx)exp(?WTx)?
结论:P(C1|X) 和 P(C2|X) 都可以计算出概率,哪个概率大则属于哪个分类
问题:不能求导
所以需要把两个概率放进一个函数:
P
(
C
1
∣
X
)
?
P
(
C
2
∣
X
)
=
P
(
C
1
∣
X
)
y
?
P
(
C
2
∣
X
)
(
1
?
y
)
所
以
当
y
=
1
的
时
候
,
结
果
是
P
(
C
1
∣
X
)
,
当
y
=
0
的
时
候
,
结
果
是
P
(
C
2
∣
X
)
P
(
y
∣
x
)
=
P
(
C
1
∣
X
)
?
P
(
C
2
∣
X
)
=
(
1
1
+
e
x
p
(
?
W
T
x
)
)
y
?
(
e
x
p
(
?
W
T
x
)
1
+
e
x
p
(
?
W
T
x
)
)
1
?
y
关
于
W
的
最
大
似
然
估
计
M
L
E
:
W
=
a
r
g
m
a
x
P
(
y
∣
X
)
=
a
r
g
m
a
x
∑
i
=
1
N
l
o
g
P
(
y
∣
X
)
=
∑
i
=
1
N
[
y
l
o
g
(
1
1
+
e
x
p
(
?
W
T
x
)
)
+
(
1
?
y
)
l
o
g
(
e
x
p
(
?
W
T
x
)
1
+
e
x
p
(
?
W
T
x
)
)
]
假
设
:
f
(
x
,
W
)
=
1
1
+
e
x
p
(
?
W
T
x
)
,
则
M
L
E
=
a
r
g
m
a
x
∑
i
=
1
N
(
y
l
o
g
f
(
x
,
W
)
+
(
1
?
y
)
l
o
g
(
1
?
f
(
x
,
W
)
)
)
引
出
交
叉
熵
:
?
H
(
p
,
q
)
=
?
(
y
l
o
g
f
(
x
,
W
)
+
(
1
?
y
)
l
o
g
(
1
?
f
(
x
,
W
)
)
)
因
为
目
标
是
M
L
E
最
大
化
,
所
以
交
叉
熵
?
H
(
p
,
q
)
要
最
小
化
P(C1|X)*P(C2|X) = P(C1|X)^y * P(C2|X)^{(1-y)} \\ 所以当y=1的时候,结果是P(C1|X),当y=0的时候,结果是P(C2|X) \\ P(y|x) = P(C1|X)*P(C2|X) =(\frac{1}{1+exp^{(-W^Tx)}})^y * (\frac{exp^{(-W^Tx)}}{1+exp^{(-W^Tx)}})^{1-y} \\ 关于W的最大似然估计MLE: W = argmax P(y|X) = argmax\sum_{i=1}^{N}logP(y|X) \\ =\sum_{i=1}^{N}[ylog(\frac{1}{1+exp^{(-W^Tx)}}) + (1-y)log(\frac{exp^{(-W^Tx)}}{1+exp^{(-W^Tx)}})] \\ 假设:f(x,W) = \frac{1}{1+exp^{(-W^Tx)}},则 \\ MLE = argmax\sum_{i=1}^{N}(ylogf(x,W)+(1-y)log(1-f(x,W))) \\ 引出交叉熵:-H(p,q) = -( ylogf(x,W)+(1-y)log(1-f(x,W))) \\ 因为目标是MLE最大化,所以交叉熵-H(p,q)要最小化
P(C1∣X)?P(C2∣X)=P(C1∣X)y?P(C2∣X)(1?y)所以当y=1的时候,结果是P(C1∣X),当y=0的时候,结果是P(C2∣X)P(y∣x)=P(C1∣X)?P(C2∣X)=(1+exp(?WTx)1?)y?(1+exp(?WTx)exp(?WTx)?)1?y关于W的最大似然估计MLE:W=argmaxP(y∣X)=argmaxi=1∑N?logP(y∣X)=i=1∑N?[ylog(1+exp(?WTx)1?)+(1?y)log(1+exp(?WTx)exp(?WTx)?)]假设:f(x,W)=1+exp(?WTx)1?,则MLE=argmaxi=1∑N?(ylogf(x,W)+(1?y)log(1?f(x,W)))引出交叉熵:?H(p,q)=?(ylogf(x,W)+(1?y)log(1?f(x,W)))因为目标是MLE最大化,所以交叉熵?H(p,q)要最小化
2.2 生成模型
生成模型不需要知道P(C1|X)的值,只需要知道P(C1|X)和P(C2|X)两者的大小即可
三:朴素贝叶斯
贝叶斯–>概率图,有向
相互独立:当x1 和 x2 相互独立,则 P(x1,x2) = P(x1)*P(x2)
条件独立:即当z成立的前提下,x和y才相互独立
记为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aWjOftCk-1629640529785)(https://bkimg.cdn.bcebos.com/formula/2bd7bfffa835678c7569e49e094ddc5d.svg)]
案例: 当Y成立的条件下,X各个维度相互独立
P(X,Y) = P(X|Y)P(Y)
P(X=X,Y=c1) =P(X=x1|Y=c1) x P(X=x2|Y=c1) x P(X=x3|Y=c1) …P(X=xp|Y=c1)
这里x1,x2,x3…xp代表X的p个维度
|