[数据结构与算法] 决策树与随机森林

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> 决策树与随机森林 -> 正文阅读

[数据结构与算法]决策树与随机森林

决策树

简介

决策树算法以树状结构表示数据分类的结果。每个决策点实现一个具有离散输出的测试函数，记为分支。

$f(x)=\left\{ \begin{aligned} 根结点 \\ 非叶子节点（决策点） \\ 叶子节点 \\ 分支 \end{aligned} \right.$
在这里插入图片描述

熵

$Y)=P(X)^{*} P(Y) \quad X$ 和Y两个事件相互独立 $\log (X Y)=\log (X)+\log (Y)$
$\mathrm{H}(\mathrm{X}), \mathrm{H}(\mathrm{Y})$ 当成它们发生的不确定性
$\mathrm{P}($ 几率越大)- $>\mathrm{H}(\mathrm{X})$ 值越小如：今天正常上课
$\mathrm{P}($ 几率越小) $->\mathrm{H}(\mathrm{X})$ 值越大如：今天没翻车

熵 $=-\sum_{i=1}^{n} P_{i} \ln \left(P_{i}\right)$
Gini系数 $=\operatorname{Gini}(p)=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2}$

根结点的选取

构造树的基本想法是随着树深度的增加，节点的嫡迅速地降低。嫡降低的速度越快越好，这样我们有望得到一棵高度最矮的决策树。

常用算法

ID3：信息增益
一般来讲，如果特征把N个样本划分成了m组，每组N_m个像本，则信息增益（不纯度减少量）为
$\begin{aligned} &\Delta I(N)=I(N)-\left(P_{1} I\left(N_{1}\right)+P_{2} I\left(N_{2}\right)+\cdots+P_{m} I\left(N_{m}\right)\right) \\ &\text { 其中, } P_{m}=N_{m} / N \end{aligned}$
在属性很多，但样本又很少，就会导致信息增益偏大

C4.5: 信息增益率
还要计算信息增益自身的熵值
$\Delta I_{R}(N)=\frac{\Delta I(N)}{I(N)}$

Gini系数：
Gini不纯度度量,也称方差不纯度
$I(N)=\sum_{m \neq n} P\left(\omega_{m}\right) P\left(\omega_{n}\right)=1-\sum_{j=1}^{k} P^{2}\left(\omega_{j}\right)$
也有人采用所谓误差不纯度
$I(N)=1-\max _{i} P\left(\omega_{j}\right)$
能够处理连续型的属性。首先将连续型属性离散化，把连续型属性的值分成不同的区间，依据是比较各个分裂点Gian值的大小。
缺失数据的考虑:在构建决策树时，可以简单地忽略缺失数据，即在计算增益时，仅考虑具有属性值的记录。

评价函数： $C(T)=\sum_{t \in \text { aaf }} N_{t} \cdot H(t) \quad$ (希望它越小越好,类似损失函数了)

剪枝

评价函数改进： $C_{\alpha}(T)=C(T)+a\left|T_{\text {loaf }}\right| \text { 叶子节点个数越多, 损失越大 }$

预剪枝

所谓先剪枝,实际就是控制决策树的生长,在决等树生长讨程中决定某节点是否需要继续分枝还是直接作为叶节点。一日某节点被判断为叶节点以后,则该分枝停止生长。
通常,用于判断决策树何时停止的方法有三种:

(1) 数据划分法。该方法的核心思想是将数据分成训练样本和测试样本,首先基于训练样本对决策树进行生长,直到在测试样本上的分类错误率达到最小时停止生长。此方法只利用了一部分样本进行决策树的生长,没有充分利用数据信息,因此通常采用多次的交叉验证方法(参考第10章)以充分利用数据信息。

(2)阈值法。预先设定一个信息增益阈值,当从某节点往下生长时得到的信息增益小于设定阙值时停止树的生长。但是,实际应用中此阙值往往不容易设定。

(3）信息增益的统计显著性分析。对已有节点获得的所有信息增益统计其分布,如果继续生长得到的信息增益与该分布相比不显著,则停止树的生长,通常可以用卡方检验来考查这个显著性。

后剪枝

顾名思义,后剪枝是指在决策树得到充分生长以后再对其进行修剪。后剪枝的核心想是对一些分枝进行合并,它从叶节点出发,如果消除具有相同父节点的叶节点后不会导到不纯度的明显增加则执行消除,并以其父节点作为新的叶节点。如此不断地从叶节点往上进行回溯,直到合并操作不再适合为止。
常用的剪枝规则也有三种:

(1）减少分类错误修剪法。该方法试图通过独立的剪枝集估计剪枝前后分类错误率的改变,并基于此对是否合并分支进行判断。

(2）最小代价与复杂性的折中。该方法对合并分枝后产生的错误率增加与复杂性减少进行折中考虑,最后得到一个综合指标较优的决策树。

(3）最小描述长度(minimal description length, MDIL)准则。该方法的核心思想是,最简单的树就是最好的树。该方法首先对决策树进行编码,再迪过剪枝得到编码最短的决策树。

随机森林

顾名思义,随机森林就是建立很多决策树,组成一个决策树的“森林”,通过多棵树投票来进行决策。理论和实验研究都表明,这种方法能够有效地提高对新样本的分类准确度即推广能力。这里只给出随机森林方法的三个基本步骤:
首先,随机森林方法对样本数据进行自举重采样,得到多个样本集。所谓自举重采样，就是每次从原来的N个训练样本中有放回地随机抽取N个样本(包括可能的重复样本)。
然后,用每个重采样样本集作为训练样本构造一个决策树。在构造决策树的过程中,每次从所有候选特征中随机地抽取m 个特征,作为当前节点下决策的备选特征,从这些特征中选择最好地划分训练样本的特征。
最后,得到所需数目的决策树后,随机森林方法对这些树的输出进行投票,以得票最多的类作为随机森林的决策。
在这里插入图片描述
与之相近的算法还有bagging方法、ADAboost方法等。

MATLAB相关代码

Model = TreeBagger(ntree,train_data,train_label,'Method','classification')

ntree 树的数量
train_data 训练样本数据
train_label 训练样本数据对应的类别标签
[predict_label,scores] = predict(Model, test_data)
test_data 测试数据
predict_label 分类结果
scores 概率分布
view(Model.Trees{n})
或view(Model.Trees{n},‘Mode’,‘graph’)
n 树的编号
可以看到每棵树的决策过程。

以国赛数模2017B第一题为例

2017年赛题下载

根据各个指标来分类完成与未完成。

部分数据截取

MATLAB实现

clc;clear;
load train_label.mat;
load train_data.mat;
ntree=10;
test_data=train_data;
Model = TreeBagger(ntree,train_data,train_label,'Method','classification')
[predict_label,scores] = predict(Model, test_data)