[人工智能] datawhale西瓜书打卡——第四章“决策树”（没写完）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> datawhale西瓜书打卡——第四章“决策树”（没写完） -> 正文阅读

[人工智能]datawhale西瓜书打卡——第四章“决策树”（没写完）

转眼又是打卡的截点，只好金戈铁甲，重新上阵。

首先，无论是前面的线性模型还是这一章的决策树，都是希望从给定数据集中学得一个模型可以用来对新样本做出预测，也就是说，都是一种机器学习方法。

那决策树是什么？有什么特点呢？怎么工作的呢？这种方法会遇到什么问题呢？

回想一下前面的线性模型有什么特点？
嗯，线性模型的特点在于通过它本质上是一种线性变换的函数（广义的线性模型也是在这个线性变换wx+b的基础上进行一层非线性的）

ok，什么是决策树？一种机器学习方法，一种对已有数据集建立决策模型的算法，一种结构为树形的算法。

then，如何决策？决策的关键点在于什么？

首先搞清楚三个关键的数据：数据集中样本数D，数据的数据集中的属性类别，属性值（连续or离散）。
以及决策的目标（无论做什么算法，都是奔着某种目的功能去的）：决策树的分支结点所包含的样本尽可能属于同一类别。也即结点的纯度越来越高。
那如何定量地衡量纯度这一概念呢？ok，信息熵来了。
在这里插入图片描述
Pk指类别k的样本占总样本的比例。Pk越大，Ent（D）的值越小，D的纯度越高。（看公式左边的变量，D，可以知道信息熵的主语是D，也就是一群样本才有信息熵！）
那划分的时候应该选择哪个属性作为划分依据呢？
ok，对于某个属性a，它应该有很多不同的可能的取值，把可能的取值（a1,a2…aV）个数记为V。
那如果用这个属性来对数据集D进行划分，就会产生V个分支结点，其中属性值为av的样本为Dv。无论是D还是Dv（都是一群样本），都可以计算它们的信息熵。
你看，当我们利用这个属性a来划分之后，会得到V个分支结点，每个节点有一小群样本Dv，Dv有它的信息熵，自然而然地，我们会想到用∑Ent（Dv）来代表这个属性划分的好坏，因为所有结点的信息熵之和最小不就最好吗？
确实是这样，但还要考虑一下不同结点它样本大小不一样，在最后的信息熵总和中占的权重也应该有所不同，按照这种朴素的想法，就可以得到一个新的名词——信息增益：
在这里插入图片描述
同样地，注意看等式左边括号里的变量，就可以知道信息增益的主人是谁了，没错，样本集D用属性a进行划分的信息增益。
显然，等式右边减号后面的式子的值越小，就代表属性a的划分结果越好，也就是说G越大，属性a的划分越如意。