一、背景介绍
(一)问题提出
自然语言是一种非线性的符号序列,句子结构的表现为复杂的嵌套性。 N-gram 和 HMM 模型只能处理线性序列,分析过程中就会面临一些问题。
(二)上下文无关文法(CFG)

二、概率上下文无关文法(PCFG)
(一)定义

(二)符号定义

(三)应用举例
1. 举例
 
2. 规则的概率估计
以上计算过程中,规则的概率计算方法如下: 前提: 有一个树库,对语料库中的每个句子都正确标记了句法分析树,称之为树库。 (从规模和可读性上来讲,应用最广泛的树库是Penn(滨州)树库) 
Penn树库
 
(四)PCFG的基本问题
1. 给定一个语法,如何计算一个句子的概率?
P
(
w
1
m
∣
G
)
P(w_{1m}|G)
P(w1m?∣G)
(1)相关定义
外部概率(outside probability): 对应HMM中的前向变量。
α
j
(
p
,
q
)
\alpha_j(p, q)
αj?(p,q) 内部概率(inside probability): 对应HMM中的后向变量。
β
j
(
p
,
q
)
\beta_j(p, q)
βj?(p,q) 
(2)利用内部概率计算句子概率
a)内部算法 —— 基于内部概率的动态规划算法
 
- 推导
 
b)内部算法 —— 举例

(3)利用外部概率计算句子概率
  
举例: 
2. 已知语法,如何计算一个句子最可能的分析树
P
(
t
∣
w
1
m
,
G
)
P(t|w_{1m},G)
P(t∣w1m?,G)
 

句法分析结果的评估
 举例:  
3. 已知一个句子,如何设定语法的规则概率,才能使该句子的概率最大?
arg
?
max
?
G
P
(
w
1
m
∣
G
)
\mathop{\arg\max}\limits_{G} P(w_{1m}|G)
Gargmax?P(w1m?∣G)
  
(五)PCFG的问题及解决方法

PCFG独立性假设的弱化
- 人们在实际分析句子的时候利用了各种信息源,但PCFG的独立性假设认为这些因素都与句法分析树的概率无关。实际上,这些信息源对于消除分析树的歧义是有用的。
- 要构造一个优于PCFG的统计句法分析器,至少需要借助于这些信息源中的一部分。
1. 方案一:词汇化
 
2. 方案二:结构化上下文的概率依存

(六)其他句法分析方法
1. 依存语法
   
2. 其他句法分析方法

3. 一些可免费使用的句法分析器

|