1. 基于信息增益的方法
1.1. 信息熵
假设
X
X
X是取有限个值
{
x
1
,
x
2
,
?
?
,
x
n
}
\{x_1,x_2,\cdots,x_n\}
{x1?,x2?,?,xn?}的随机变量,其概率分布为
P
(
X
=
x
i
)
=
p
i
,
i
=
1
,
2
,
n
(1-1)
P(X=x_i)=p_i, i=1,2,n\tag{1-1}
P(X=xi?)=pi?,i=1,2,n(1-1) 则速记变量
X
X
X的熵定义为:
H
(
X
)
=
?
∑
i
=
1
n
p
i
l
o
g
2
?
p
i
(1-2)
H(X)=-\sum_{i=1}^{n}p_ilog_2\ p_i\tag{1-2}
H(X)=?i=1∑n?pi?log2??pi?(1-2) 熵衡量了随机变量的不确定性,熵越大,随机变量的不确定性越大。利用一定数据计算出的熵,也叫经验熵。
1.2. 条件熵
设有随机变量
(
X
,
Y
)
(X,Y)
(X,Y),其联合概率分布为:
P
(
X
=
x
i
,
Y
=
y
i
)
=
p
i
j
,
i
=
1
,
2
,
?
?
,
n
,
?
j
=
1
,
2
,
?
?
,
m
(1-3)
P(X=x_i,Y=y_i)=p_{ij},i=1,2,\cdots,n,\ j=1,2,\cdots,m\tag{1-3}
P(X=xi?,Y=yi?)=pij?,i=1,2,?,n,?j=1,2,?,m(1-3) 给定
X
X
X的条件下,Y的条件熵定义为:
H
(
Y
∣
X
)
=
∑
i
=
1
n
p
i
H
(
Y
∣
X
=
x
i
)
(1-4)
H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)\tag{1-4}
H(Y∣X)=i=1∑n?pi?H(Y∣X=xi?)(1-4) 其中
p
i
=
P
(
X
=
x
i
)
,
i
=
1
,
2
,
?
?
,
n
p_i=P(X=x_i),i=1,2,\cdots,n
pi?=P(X=xi?),i=1,2,?,n 条件熵衡量了已知一个随机变量的条件下,另一个随机变量的不确定性。利用一定数据计算出的条件熵,也叫条件经验熵。
1.3. 信息增益
特征
A
A
A对数据集
D
D
D的信息增益定义为:
g
(
D
,
A
)
=
H
(
D
)
?
H
(
D
∣
A
)
(1-5)
g(D,A)=H(D)-H(D|A)\tag{1-5}
g(D,A)=H(D)?H(D∣A)(1-5) 一般用于分类问题,用于衡量特征
A
A
A对
D
D
D分类问题的不确定性的减少程度。
1.4. 信息增益在分类问题中的作用
记训练数据集为
D
D
D,样本个数为
∣
D
∣
|D|
∣D∣,有
K
K
K个类别:
C
1
,
C
2
,
?
?
,
C
K
C_1,C_2,\cdots,C_K
C1?,C2?,?,CK?,
∣
C
k
∣
|C_k|
∣Ck?∣为属于类
C
k
C_k
Ck?的样本个数。假设特征
A
A
A有
n
n
n个不同的取值
{
a
1
,
a
2
,
?
?
,
a
n
}
\{a_1,a_2,\cdots,a_n\}
{a1?,a2?,?,an?},根据这些取值可以将
D
D
D划分为
n
n
n个子集:
D
1
,
D
2
,
?
?
,
D
n
D_1,D_2,\cdots,D_n
D1?,D2?,?,Dn?,
∣
D
i
∣
|D_i|
∣Di?∣为属于
D
i
D_i
Di?的样本个数。记在子集
D
i
D_i
Di?中属于类别
C
k
C_k
Ck?的样本集合为
D
i
k
D_{ik}
Dik?,对应的样本个数为
∣
D
i
k
∣
|D_{ik}|
∣Dik?∣. 数据集
D
D
D的经验熵为:
H
(
D
)
=
?
∑
k
=
1
K
∣
C
k
∣
∣
D
∣
l
o
g
2
?
∣
C
k
∣
∣
D
∣
(1-6)
H(D)=-\sum_{k=1}^{K}\frac{|C_k|}{|D|}log_2\ \frac{|C_k|}{|D|}\tag{1-6}
H(D)=?k=1∑K?∣D∣∣Ck?∣?log2??∣D∣∣Ck?∣?(1-6) 给定特征
A
A
A的条件经验熵为: KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? H(D|A)&=\sum_{… 再利用
{
1
?
5
}
\{1-5\}
{1?5}即可计算出信息增益,用于评估特征
A
A
A在分类问题中的作用
|