1. 基于信息增益的方法

1.1. 信息熵

假设 $X$ 是取有限个值 $\{x_1,x_2,\cdots,x_n\}$ 的随机变量，其概率分布为
$P(X=x_i)=p_i, i=1,2,n\tag{1-1}$
则速记变量 $X$ 的熵定义为：
$H(X)=-\sum_{i=1}^{n}p_ilog_2\ p_i\tag{1-2}$
熵衡量了随机变量的不确定性，熵越大，随机变量的不确定性越大。利用一定数据计算出的熵，也叫经验熵。

1.2. 条件熵

设有随机变量 $(X, Y)$ ，其联合概率分布为：
$P(X=x_i,Y=y_i)=p_{ij},i=1,2,\cdots,n,\ j=1,2,\cdots,m\tag{1-3}$
给定 $X$ 的条件下，Y的条件熵定义为：
$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i)\tag{1-4}$
其中 $p_i=P(X=x_i),i=1,2,\cdots,n$
条件熵衡量了已知一个随机变量的条件下，另一个随机变量的不确定性。利用一定数据计算出的条件熵，也叫条件经验熵。

1.3. 信息增益

特征 $A$ 对数据集 $D$ 的信息增益定义为：
$g(D,A)=H(D)-H(D|A)\tag{1-5}$
一般用于分类问题，用于衡量特征 $A$ 对 $D$ 分类问题的不确定性的减少程度。

1.4. 信息增益在分类问题中的作用

记训练数据集为 $D$ ,样本个数为 $∣ D ∣$ ，有 $K$ 个类别： $C_1,C_2,\cdots,C_K$ ， $C_k|$ 为属于类 $C_k$ 的样本个数。假设特征 $A$ 有 $n$ 个不同的取值 $\{a_1,a_2,\cdots,a_n\}$ ，根据这些取值可以将 $D$ 划分为 $n$ 个子集： $D_1,D_2,\cdots,D_n$ ， $D_i|$ 为属于 $D_i$ 的样本个数。记在子集 $D_i$ 中属于类别 $C_k$ 的样本集合为 $D_{ik}$ ,对应的样本个数为 $D_{ik}|$ .
数据集 $D$ 的经验熵为：
$H(D)=-\sum_{k=1}^{K}\frac{|C_k|}{|D|}log_2\ \frac{|C_k|}{|D|}\tag{1-6}$
给定特征 $A$ 的条件经验熵为：
$KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? H(D|A)&=\sum_{…$
再利用 ${1-5\}$ 即可计算出信息增益，用于评估特征 $A$ 在分类问题中的作用