第一讲 绪论
第二讲 数学基础
1 概率论基础
2 信息论基础
熵(entropy)
X是一个离散型随机变量,X的熵H(X)为:
H
(
X
)
=
?
∑
x
∈
X
p
(
x
)
l
o
g
2
p
(
x
)
H(X)=-\sum_{x \in X}p(x)log_2p(x)
H(X)=?x∈X∑?p(x)log2?p(x)
熵越大,随机变量的不确定性越大
联合熵(joint entropy)
X,Y是一对离散型随机变量,X,Y的联合熵H(X,Y)为:
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
=
?
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
2
p
(
x
,
y
)
H(X,Y)=H(X)+H(Y|X)=-\sum_{x \in X}\sum_{y \in Y}p(x, y)log_2p(x, y)
H(X,Y)=H(X)+H(Y∣X)=?x∈X∑?y∈Y∑?p(x,y)log2?p(x,y) 联合熵描述一对随机变量平均所需要的信息量
条件熵(conditional entropy)
给定随机变量X的情况下,随机变量Y的条件熵定义为:
H
(
X
∣
Y
)
=
∑
x
∈
X
p
(
x
)
H
(
Y
∣
X
=
x
)
=
?
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
2
p
(
y
∣
x
)
H(X|Y)=\sum_{x \in X}p(x)H(Y|X=x)=-\sum_{x \in X}\sum_{y \in Y}p(x, y)log_2p(y|x)
H(X∣Y)=x∈X∑?p(x)H(Y∣X=x)=?x∈X∑?y∈Y∑?p(x,y)log2?p(y∣x)
相对熵(relative entropy)
即K-L距离,两个概率分布p(x)和q(x)的相对熵定义为:
D
(
p
∣
∣
q
)
=
∑
x
∈
X
p
(
x
)
l
o
g
p
(
x
)
q
(
x
)
D(p||q)=\sum_{x \in X}p(x)log\frac{p(x)}{q(x)}
D(p∣∣q)=x∈X∑?p(x)logq(x)p(x)? 两个随机分布相同时,其相对熵为0,两个随机分布差别增加时,其相对熵也增加
交叉熵(cross entropy)
如果一个随机变量X~p(x),q(x)为近似p(x)的概率分布,随机变量X和模型q之间的交叉熵定义为:
H
(
X
,
q
)
=
H
(
X
)
+
D
(
p
∣
∣
q
)
=
?
∑
x
p
(
x
)
l
o
g
q
(
x
)
H(X,q)=H(X)+D(p||q)=-\sum_{x}p(x)log q(x)
H(X,q)=H(X)+D(p∣∣q)=?x∑?p(x)logq(x) 交叉熵用以衡量估计模型与真实概率分布之间的差距
-
对于语言L=(X)~p(x)与其模型q的交叉熵定义为:
H
(
L
,
q
)
=
?
lim
?
n
→
∞
1
n
∑
x
1
n
p
(
x
1
n
)
l
o
g
q
(
x
1
n
)
=
?
?
lim
?
n
→
∞
1
n
l
o
g
q
(
x
1
n
)
H(L,q)=-\lim_{n \to \infty}\frac{1}{n}\sum_{x^n_1}p(x^n_1)logq(x^n_1)=--\lim_{n \to \infty}\frac{1}{n}logq(x^n_1)
H(L,q)=?n→∞lim?n1?x1n?∑?p(x1n?)logq(x1n?)=??n→∞lim?n1?logq(x1n?)
-
x
1
n
=
x
1
.
.
.
x
n
x^n_1=x_1...x_n
x1n?=x1?...xn?为语言L的词序列
-
p
(
x
1
n
)
p(x^n_1)
p(x1n?)为
x
1
n
x^n_1
x1n?的概率
-
q
(
x
1
n
)
q(x^n_1)
q(x1n?)为模型q对
x
1
n
x^n_1
x1n?的概率估计值
由此可以根据模型q和一个含有大量数据的L的样本来计算交叉熵
|