第四章 决策树
1 基本流程
2 划分选择
随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。
2.1 信息增益
2.1.1 什么是信息熵
https://www.zhihu.com/question/22178202
什么是熵:一种事物的不确定性。
信息:消除不确定性的事物。
信息的功能:调整概率;排除干扰;确定情况(比如卖瓜的人说了一句,包熟包甜)。
噪音:不能消除某人对某件事情不确定性的事物。
数据 = 信息 + 噪音
2.1.2 熵如何量化——等概率
参照某个不确定事件作为单位,如抛一次硬币记为1bit。
如8个等概率的不确定情况,相当于抛3次硬币,即2^3个可能情况,熵为3bit。
如10个等概率的不确定情况,相当于抛log10次硬币,即2^log10个可能情况,熵为log10bit,该对数以2为底。
2.1.3 熵如何量化——概率不等
计算公式:
2.1.4 信息如何量化
得知信息前后,熵的差额。
信息前熵:log4 = 2
信息后熵:31/6log6 + 1/2*log2
2.1.5 小结
2.1.6 例子
|