贝叶斯决策论
贝叶斯决策论实在概率框架下实施决策得基本方法。
对分类任务来说,在所有相关概率都已知得理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失选择最优得类别标记。
问题:
假设有
N
N
N种可能得类别标记,即
y
=
{
c
1
,
c
2
,
?
?
,
c
N
}
y=\left \{ c_1,c_2,\cdots,c_N \right \}
y={c1?,c2?,?,cN?},
λ
i
j
\lambda_{ij}
λij?为将一个真实标记为
c
i
c_i
ci?的样本误标记为
c
j
c_j
cj?所产生的损失.
- 条件风险:
R
(
c
i
∣
x
)
=
∑
N
j
=
1
λ
i
j
P
(
c
j
∣
x
)
R(c_i|x)=\sum_{N}^{j=1}\lambda_{ij}P(c_j|x)
R(ci?∣x)=∑Nj=1?λij?P(cj?∣x)
- 目标:于是我们的任务便是寻找一个判定准则
h
:
x
?
y
h:x \longrightarrow y
h:x?y 以最小化总体风险:
R
(
h
)
=
E
x
[
R
(
h
(
x
)
∣
x
)
]
R(h)=E_x\left [ R(h(x)|x) \right ]
R(h)=Ex?[R(h(x)∣x)]
- 结果:
h
?
(
x
)
=
a
r
g
m
i
n
c
∈
y
R
(
c
∣
x
)
h^*(x)={argmin}_{c\in y }R(c|x)
h?(x)=argminc∈y?R(c∣x),
h
?
(
x
)
h^*(x)
h?(x)称为贝叶斯最优分类器。
若记
λ
i
j
=
{
0
,
i
=
j
1
,
i
≠
j
\lambda_{ij}=\left\{\begin{matrix} 0,i=j \\ 1,i\ne j \end{matrix}\right.
λij?={0,i=j1,i?=j?,则条件风险
R
(
c
∣
x
)
=
1
?
P
(
c
∣
x
)
R(c|x)=1-P(c|x)
R(c∣x)=1?P(c∣x),贝叶斯最优分类器为
h
?
(
x
)
=
a
r
g
m
a
x
c
∈
y
P
(
c
∣
x
)
h^*(x)={argmax}_{c\in y }P(c|x)
h?(x)=argmaxc∈y?P(c∣x)。
于是问题转化为估计
P
(
c
∣
x
)
P(c|x)
P(c∣x),由贝叶斯定理
P
(
c
∣
x
)
=
P
(
c
)
P
(
x
∣
c
)
P
(
x
)
P(c|x)=\frac{P(c)P(x|c)}{P(x)}
P(c∣x)=P(x)P(c)P(x∣c)?。
朴素贝叶斯分类器
朴素贝叶斯分类器(naive Bayes classifier)采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。
目标函数
P
(
c
∣
x
)
=
P
(
c
)
P
(
x
∣
c
)
P
(
x
)
=
P
(
c
)
P
(
x
)
∏
i
=
1
d
P
(
x
i
∣
c
)
h
n
b
(
x
)
=
a
r
g
m
a
x
c
∈
y
P
(
c
)
∏
i
=
1
d
P
(
x
i
∣
c
)
\begin{matrix} P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_i|c) \\ \\ h_{nb}(x)={argmax}_{{c\in y }}P(c)\prod_{i=1}^{d}P(x_i|c) \end{matrix}
P(c∣x)=P(x)P(c)P(x∣c)?=P(x)P(c)?∏i=1d?P(xi?∣c)hnb?(x)=argmaxc∈y?P(c)∏i=1d?P(xi?∣c)?
求解
- 先验概率:
P
(
c
)
=
∣
D
c
∣
∣
D
∣
P(c)=\frac{\left | D_c \right | }{\left | D \right | }
P(c)=∣D∣∣Dc?∣?
- 条件概率:
- 离散属性:令
D
c
,
x
i
D_{c,x_i}
Dc,xi??表示
D
c
D_c
Dc?中在第
i
i
i个属性上取值为
x
i
x_i
xi?的样本组成的集合,则:
P
(
x
i
∣
c
)
=
∣
D
c
,
x
i
∣
∣
D
c
∣
P(x_i|c)=\frac{\left | D_{c,x_i} \right | }{\left | D_c \right | }
P(xi?∣c)=∣Dc?∣∣Dc,xi??∣?
- 连续属性:考虑概率密度函数,假定
p
(
x
i
∣
c
)
~
N
(
μ
c
,
i
,
σ
c
,
i
2
)
p(x_i|c)\sim N(\mu_{c,i},\sigma_{c,i}^2)
p(xi?∣c)~N(μc,i?,σc,i2?),则:
P
(
x
i
∣
c
)
=
1
2
π
σ
c
,
i
e
x
p
(
?
(
x
i
?
μ
c
,
i
)
2
2
σ
c
,
i
2
)
P(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp(-\frac{(x_i-\mu_{c,i})^2}{2\sigma_{c,i}^2} )
P(xi?∣c)=2π
?σc,i?1?exp(?2σc,i2?(xi??μc,i?)2?)
补充
为避免其他属性携带信息被训练集中未出现的属性值抹去,在估计概率时通常要进行平滑,常用拉普拉斯修正 :
P
^
(
c
)
=
∣
D
c
∣
+
1
∣
D
∣
+
N
P
^
(
x
i
∣
c
)
=
∣
D
c
,
x
i
∣
+
1
∣
D
c
∣
+
N
i
\begin{matrix} \hat{P}(c)=\frac{\left | D_c \right |+1 }{\left | D \right |+N } \\ \\ \hat{P}(x_i|c)= \frac{\left | D_{c,x_i} \right |+1 }{\left | D_c \right |+N_i } \end{matrix}
P^(c)=∣D∣+N∣Dc?∣+1?P^(xi?∣c)=∣Dc?∣+Ni?∣Dc,xi??∣+1??
半朴素贝叶斯分类器
半朴素贝叶斯分类器适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。
独依赖估计(ODE)
假设每个属性在类别之外最多依赖于一个其他属性,即
P
(
c
∣
x
)
∝
P
(
c
)
∏
i
=
1
d
P
(
x
i
∣
c
,
p
a
i
)
P(c|x)\propto P(c)\prod_{i=1}^{d}P(x_i|c,pa_i)
P(c∣x)∝P(c)∏i=1d?P(xi?∣c,pai?)
根据属性与其父节点的连接关系,有以下几种分类:
|