一.信息熵 1.信息熵 (1)概述:
该概念由克劳德·艾尔伍德·香农在1948年首次提出,最初来自于热力学中熵的概念.为避免混淆,故称为信息熵(Entropy).这是1个用于度量信息的不确定性的抽象概念.由于1条信息的信息量的大小与其不确定性有直接关系,如为了弄清楚1件高度不确定的事,就需要大量信息,因此对不确定性的度量就相当于对信息量(或预期需求的信息量)的度量
(2)定义:
信息熵
H
(
X
)
H(X)
H(X)被定义为
H
(
X
)
=
?
∑
x
P
(
x
)
log
?
2
P
(
x
)
H(X)=-\sum_x{P(x)\log_2P(x)}
H(X)=?x∑?P(x)log2?P(x) 单位为比特(bit).信息熵也可以
e
e
e为底数,即
H
(
X
)
=
?
∑
x
P
(
x
)
ln
?
P
(
x
)
H(X)=-\sum_x{P(x)\ln P(x)}
H(X)=?x∑?P(x)lnP(x)此时单位为奈特(nat).变量的不确定性越大,信息熵也就越大:当
X
~
U
(
a
,
b
)
X\sim U(a,b)
X~U(a,b)时,信息熵最大;当
X
X
X为定值时,信息熵最小;在给定均值
μ
μ
μ和方差
σ
2
σ^2
σ2的前提下,当
X
~
N
(
μ
,
σ
2
)
X\sim N(μ,σ^2)
X~N(μ,σ2)时,信息熵最大
(3)最大熵定理:
最大熵定理表明
0
≤
H
(
X
)
≤
log
?
∣
X
∣
0≤H(X)≤\log{|X|}
0≤H(X)≤log∣X∣
(4)信息熵的加总:
各部分的信息熵可以进行加总:设总信息熵为
H
(
X
)
H(X)
H(X),第
i
i
i部分的信息熵为
H
i
(
X
)
H_i(X)
Hi?(X),第
i
i
i部分占总体的比例为
p
i
p_i
pi?,则
H
(
X
)
=
∑
i
=
1
m
p
i
H
i
(
X
)
H(X)=\displaystyle\sum_{i=1}^mp_iH_i(X)
H(X)=i=1∑m?pi?Hi?(X)
2.联合熵 (1)概述:
联合熵(Joint Entropy)用于度量2个事件共同发生时的不确定性
(2)定义:
随机变量
X
,
Y
X,Y
X,Y的联合熵被定义为
H
(
X
,
Y
)
=
?
∑
x
,
y
P
(
x
,
y
)
log
?
2
P
(
x
,
y
)
H(X,Y)=-\sum_{x,y}P(x,y)\log_2P(x,y)
H(X,Y)=?x,y∑?P(x,y)log2?P(x,y)
3.条件熵 (1)概述:
条件熵(Conditional Entropy)用于度量在1个事件发生的前提下,另1个事件的不确定性
(2)定义:
随机变量
X
,
Y
X,Y
X,Y的条件熵被定义为
H
(
X
?
∣
?
Y
)
=
H
(
X
,
Y
)
?
H
(
Y
)
=
?
∑
x
,
y
P
(
x
,
y
)
log
?
2
P
(
x
?
∣
?
y
)
H(X\,|\,Y)=H(X,Y)-H(Y)=-\sum_{x,y}P(x,y)\log_2P(x\,|\,y)
H(X∣Y)=H(X,Y)?H(Y)=?x,y∑?P(x,y)log2?P(x∣y)可证明
H
(
X
?
∣
?
Y
)
≤
H
(
X
)
H(X\,|\,Y)≤H(X)
H(X∣Y)≤H(X)
4.相对熵 (1)概述:
相对熵(Relative Entropy)又称交叉熵/互熵(Cross Entropy),鉴别信息(Authentication Information),库尔贝克-莱布勒熵(Kullback-Leibler Entropy),库尔贝克-莱布勒散度(Kullback-Leibler Divergence;KL Divergence)或信息散度(Information Divergence),是2个概率分布间差异的非对称性度量
(2)定义:
概率分布
P
(
x
)
,
Q
(
x
)
P(x),Q(x)
P(x),Q(x)的相对熵被定义为
K
L
(
P
?
∣
∣
?
Q
)
=
∑
x
P
(
x
)
log
?
2
P
(
x
)
log
?
2
Q
(
x
)
=
E
x
~
P
(
x
)
(
log
?
2
P
(
x
)
Q
(
x
)
)
≥
0
KL(P\,||\,Q)=\sum_xP(x)\frac{\log_2P(x)}{\log_2Q(x)}=E_{x\sim P(x)}(\log_2\frac{P(x)}{Q(x)})≥0
KL(P∣∣Q)=x∑?P(x)log2?Q(x)log2?P(x)?=Ex~P(x)?(log2?Q(x)P(x)?)≥0通常
K
L
(
P
?
∣
∣
?
Q
)
≠
K
L
(
Q
?
∣
∣
?
P
)
KL(P\,||\,Q)≠KL(Q\,||\,P)
KL(P∣∣Q)?=KL(Q∣∣P)
(3)概率分布的近似:
假设存在某个未知的概率分布
P
P
P,希望使用概率分布
Q
Q
Q来近似
P
P
P,则有2种可能的目标: ①目标为
min
?
Q
?
K
L
(
Q
?
∣
?
P
)
\underset{Q}{\min}\:{KL(Q\,|\,P)}
Qmin?KL(Q∣P)此时需要在
P
P
P为0的位置,
Q
Q
Q也尽可能为0,会得到比较窄的分布 ②目标为
min
?
Q
?
K
L
(
P
?
∣
?
Q
)
\underset{Q}{\min}\:{KL(P\,|\,Q)}
Qmin?KL(P∣Q)此时需要在
P
P
P不为0的位置,
Q
Q
Q也尽可能不为0,会得到比较宽的分布
5.互信息 (1)概述:
互信息(Mutual Information)用于度量1个事件中包含的关于另1个事件的信息量
(2)定义:
随机变量
X
,
Y
X,Y
X,Y的互信息被定义为
I
(
X
,
Y
)
=
K
L
(
P
(
x
,
y
)
?
∣
∣
?
P
(
x
)
P
(
y
)
)
=
∑
x
,
y
P
(
x
,
y
)
log
?
2
P
(
x
,
y
)
log
?
2
P
(
x
)
P
(
y
)
I(X,Y)=KL(P(x,y)\,||\,P(x)P(y))=\sum_{x,y}P(x,y)\frac{\log_2P(x,y)}{\log_2P(x)P(y)}
I(X,Y)=KL(P(x,y)∣∣P(x)P(y))=x,y∑?P(x,y)log2?P(x)P(y)log2?P(x,y)?
(3)互信息与联合熵:
可证明
I
(
X
,
Y
)
=
H
(
X
)
?
H
(
X
?
∣
?
Y
)
=
H
(
X
)
+
H
(
Y
)
?
H
(
X
,
Y
)
I(X,Y)=H(X)-H(X\,|\,Y)=H(X)+H(Y)-H(X,Y)
I(X,Y)=H(X)?H(X∣Y)=H(X)+H(Y)?H(X,Y)有些文献使用上述2式之一定义互信息
二.最大熵模型 1.最大熵原理:
"最大熵原理"(Maximum Entropy Principle)认为:在所有可能的概率模型中,熵最大的模型是最好的模型.若模型需要满足一些约束条件,则
最大熵原理要求在所有满足已知约束条件的模型中,找到熵最大的那个.也就是说在满足所有约束条件的前提下,不对未知情况做任何主观假设(称为
"无偏(好)原则",要求概率分布尽可能均匀).这时模型的熵最大,预测风险最小
2.最大熵模型 (1)概念:
“最大熵模型”(Maximum Entropy Model)是将最大熵原理应用到分类问题而得到的模型,即所有满足已知约束条件的模型中熵(通常使用条件熵)最大(等价于概率分布最均匀)的那个.比如:已知"学习"可能是动词或名词;可能是主语,谓语,宾语或定语.令
x
1
x_1
x1?表示"学习"为名词,
x
2
x_2
x2?表示"学习"为动词,
y
1
y_1
y1?表示"学习"为主语,
y
2
y_2
y2?表示"学习"为谓语,
y
3
y_3
y3?表示"学习"为宾语,
y
4
y_4
y4?表示"学习"为定语.易知模型应满足
P
(
x
1
)
+
P
(
x
2
)
=
1
P
(
y
1
)
+
P
(
y
2
)
+
P
(
y
3
)
+
P
(
y
4
)
=
1
P(x_1)+P(x_2)=1\\P(y_1)+P(y_2)+P(y_3)+P(y_4)=1
P(x1?)+P(x2?)=1P(y1?)+P(y2?)+P(y3?)+P(y4?)=1根据无偏好原则,模型应满足
P
(
x
1
)
=
P
(
x
2
)
P
(
y
1
)
=
P
(
y
2
)
=
P
(
y
3
)
=
P
(
y
4
)
P(x_1)=P(x_2)\\P(y_1)=P(y_2)=P(y_3)=P(y_4)
P(x1?)=P(x2?)P(y1?)=P(y2?)=P(y3?)=P(y4?)故最优模型为
P
(
x
1
)
=
P
(
x
2
)
=
1
2
P
(
y
1
)
=
P
(
y
2
)
=
P
(
y
3
)
=
P
(
y
4
)
=
1
4
P(x_1)=P(x_2)=\frac{1}{2}\\P(y_1)=P(y_2)=P(y_3)=P(y_4)=\frac{1}{4}
P(x1?)=P(x2?)=21?P(y1?)=P(y2?)=P(y3?)=P(y4?)=41?若从其他渠道得知
P
(
y
4
)
=
1
20
P(y_4)=\frac{1}{20}
P(y4?)=201?,则最优模型变为
P
(
x
1
)
=
P
(
x
2
)
=
1
2
P
(
y
1
)
=
P
(
y
2
)
=
P
(
y
3
)
=
19
60
P
(
y
4
)
=
1
20
P(x_1)=P(x_2)=\frac{1}{2}\\P(y_1)=P(y_2)=P(y_3)=\frac{19}{60}\\P(y_4)=\frac{1}{20}
P(x1?)=P(x2?)=21?P(y1?)=P(y2?)=P(y3?)=6019?P(y4?)=201?若从其他渠道又得知
P
(
y
2
?
∣
?
x
1
)
=
19
20
P(y_2\,|\,x_1)=\frac{19}{20}
P(y2?∣x1?)=2019?,则最优模型变为
max
?
?
H
(
Y
?
∣
?
X
)
=
?
∑
x
∈
{
x
1
,
x
2
}
y
∈
{
y
1
,
y
2
,
y
3
,
y
4
}
P
(
x
,
y
)
log
?
2
P
(
y
?
∣
?
x
)
s
.
t
.
{
P
(
x
1
)
+
P
(
x
2
)
=
1
P
(
y
1
)
+
P
(
y
2
)
+
P
(
y
3
)
+
P
(
y
4
)
=
1
P
(
y
4
)
=
1
20
P
(
y
2
?
∣
?
x
1
)
=
19
20
\max\:H(Y\,|\,X)=\underset{\quad x∈\{x_1,x_2\}\atop\quad y∈\{y_1,y_2,y_3,y_4\}}{-\displaystyle\sum}P(x,y)\log_2P(y\,|\,x)\\s.t.\begin{cases}P(x_1)+P(x_2)=1\\P(y_1)+P(y_2)+P(y_3)+P(y_4)=1\\P(y_4)=\frac{1}{20}\\P(y_2\,|\,x_1)=\frac{19}{20}\end{cases}
maxH(Y∣X)=y∈{y1?,y2?,y3?,y4?}x∈{x1?,x2?}??∑?P(x,y)log2?P(y∣x)s.t.??????????P(x1?)+P(x2?)=1P(y1?)+P(y2?)+P(y3?)+P(y4?)=1P(y4?)=201?P(y2?∣x1?)=2019??
(2)一般形式:
最大熵模型的一般形式为
max
?
P
?
H
(
Y
?
∣
?
X
)
=
?
∑
x
,
y
P
(
x
,
y
)
log
?
2
P
(
y
?
∣
?
x
)
\underset{P}{\max}\:H(Y\,|\,X)=-\displaystyle\sum_{x,y}P(x,y)\log_2P(y\,|\,x)
Pmax?H(Y∣X)=?x,y∑?P(x,y)log2?P(y∣x)
|