图解CRF的发展
- 硬分类和软分类的区分标准:最终求的是概率还是分类结果。软分类最终得到的是概率,如逻辑回归求
P
(
Y
=
1
∣
X
)
;
P
(
Y
=
0
∣
X
)
P(Y=1|X);P(Y=0|X)
P(Y=1∣X);P(Y=0∣X)。硬分类直接得出分类结果,如SVM,通过几何间隔,得出max margin classifier,感知机根据误分类驱动,得到
f
(
w
)
=
s
i
g
n
(
w
T
x
)
f(w)=sign(w^Tx)
f(w)=sign(wTx),LDA(线性判别分析)原则是类间大,类内小。
- 软分类又分为概率判别模型和概率生成模型。概率判别模型根据
P
(
y
∣
x
)
P(y|x)
P(y∣x)进行建模;概率生成模型根据
P
(
x
y
)
P(xy)
P(xy)进行建模
- 概率生成模型的典型代表:HMM。HMM既可以从贝叶斯角度理解;也可以从高斯混合分布角度理解,两者主要区别在于y是离散变量,还是连续变量。HMM是有向图的代表,y之间、y与x之间都是有方向的箭头。图1是朴素贝叶斯原理,可以看到条件独立的存在;图2是通过朴素贝叶斯理解HMM;图3是通过高斯混合分布理解HMM
- 概率判别模型的典型代表有逻辑回归,逻辑回归本质是最大熵模型,可以说逻辑回归是最大熵模型的一个特例
- 概率判别模型的另一典型代表是MEMM最大熵隐马尔可夫模型,从名称可以看出其结合了最大熵模型和隐马尔可夫模型。其模型优点是打破了HMM观测独立的假设(该假设本身不太合理,因为观测之间是相互影响的,假设只是为了方便计算),缺点是由于局部归一化(通过计算使概率值相加为1)导致了label bias problem(了解即可)。模型架构见图4,可以看到观测之间不再独立,实际该图可以简化成上面两部分或者下面两部分;从图中也可以看出MEMM中x与y的箭头方向相较于HMM发生了变化(有x指向y),且y之间仍然是有向的(有方向的箭头)。MEMM模型仅做了解。
- 为了解决MEMM局部归一化带来的问题,引入了CRF,CRF除了使用全局归一化避免了label bias problem,还打破了齐次马尔科夫假设,如图5所示,y之间变成了无向图,说明
y
t
+
1
y_{t+1}
yt+1?只与
y
t
y_t
yt??有关的假设不再成立。x与y之间,还是x指向y。条件随机场中的条件指的是x已知的条件,随机场指的是y,y是无向图的随机场形式。
|