[人工智能] 决策树分类—

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 决策树分类——附数据下载 -> 正文阅读

[人工智能]决策树分类——附数据下载

又在网络上搜罗了半天，凑了几个决策树的例子。原理的部分呢，大致就是有几种算法：首先是ID3算法，基于信息熵的原理，根据某个属性如果能够最为迅速的将所有的样本进行分类，那么这个属性将成为决策树的首选节点，然后仍然根据熵值继续向下选择其他属性作为分类节点。但ID3算法有个很明显的弊端，就是如果一个属性的值有很多个，则这个属性被选出来的概率则最高（即偏好有更多值的属性），这个属性在某些情况下就是一个鸡肋属性，比如生日，身份证号等，很显然不同的人有不同的出生日期，根据生日确实可以很快将样本进行划分类别，但这个生日对于我们进行判断分类其实并没有什么意义。为了避免出现这样的尴尬，于是C4.5就应运而生了，不再是根据熵值来进行选择，而是根据信息增益率，也就是比率来进行选择。CART树则是使用Gini系数来进行计算判断，同时能避免ID3，C4.5处理不了连续值的尴尬。为了提升分类准确率，又整出一个随机森林的算法，说白了就是如果一棵树分的不准确的话（样本在进行抽样时总是有可能出现抽偏的可能），那我们就多搞它几棵树，多抽几次样，弄个森林来进行进行处理。当然啊，这只是我自己小小的理解，不对的话，可以留言探讨。
这篇文章的目的并不是搞那么高深的理论，只是让大家能上手决策树的实现，所以就不罗嗦了，直接上案例开始动手。第一个案例我会说得很详细，后面两个我就不罗嗦了，过程都是一样的，贴个结果图算了。
案例1：挑瓜
大家都会挑西瓜吧（尽管我还是不太会，跟着数据瞎咧咧了），西瓜有如下一些特征：色泽、根蒂、敲声、纹理、脐部、触感，根据这些特征可以对瓜进行一定的判断是否是一个好瓜（熟了）。数据链接在此（3个案例数据）
首先导入数据，查看一下：

dt=pd.read_excel(r'决策树数据.xlsx',sheet_name='挑瓜')
dt.head(2)

在这里插入图片描述
显然，编号这个属性是我们进行判断时不需要的，色泽、根蒂……触感这些都是所谓的特征数据，而好瓜则是类别数据，我们需要把这两部分分开，同时还需要解决另一个问题，就是这些数据都是中文的，不能直接拿去进行计算，所以还需要进行一些转换。

#去掉编号列，同时将好瓜这一列名改为是否，这样生成的图里更容易看明白
dt.rename(columns={'好瓜':'是否'},inplace=True)
dt1=dt.iloc[:,1:]
#定义一个数据转换的函数，将中文数据转换为数值
def convert(dt):
    if dt in ['青绿','蜷缩','浊响','清晰','凹陷','硬滑','是']:
        return 1
    elif dt in ['乌黑','稍蜷', '沉闷', '稍糊', '稍凹', '软粘','否']:
        return 2
    elif dt in ['浅白', '硬挺', '清脆', '模糊', '平坦']:
        return 3
dt1=dt1.applymap(convert)
dt1

整理后得到的数据如下：
在这里插入图片描述
接着将数据划分为特征数据和类别数据两个部分：

import numpy as np
labels=np.array(dt1['是否'])#特征数据
data=np.array(dt1.iloc[:,:-1])#类别数据

开始构建决策树：

from sklearn import tree 
clf = tree.DecisionTreeClassifier(criterion = 'entropy')#参数criterion = 'entropy'为基于信息熵，‘gini’为基于基尼指数
clf.fit(data, labels)#训练模型

用第1种方式来绘制决策树（不建议用这种）

with open("tree.dot", 'w') as f:#将构建好的决策树保存到tree.dot文件中
    f = tree.export_graphviz(clf,feature_names = np.array(dt1.columns[:-1]), out_file = f)

然后在prompt窗口下输入命令

dot -Tpng tree.dot -o tree.png

确实得到了一棵树，不过样子奇难看，也根本看不清属性是啥
在这里插入图片描述
于是换第2种方式：（需要先安装graphviz）

import graphviz 
dot_data = tree.export_graphviz(clf, out_file=None, 
                     feature_names=dt1.columns[:-1].values,  
                     class_names=dt1.columns[-1],  
                     filled=True, rounded=True,  
                     special_characters=True)  
graph = graphviz.Source(dot_data)  
graph

在这里插入图片描述
这回这个就好看多了。
听说还有个更牛X的包叫dtreeviz（也需要先安装），本着试试不花钱的态度，也做了一遍，可貌似总解决不了中文无法显示的问题（其实是我懒得去折腾，不是传统的那种显示不了中文的问题，英文则一点问题没有），代码先放在这里，有兴趣的可以试试：

from dtreeviz.trees import dtreeviz
viz = dtreeviz(clf,x_data=data,y_data=labels,
               target_name='class',feature_names=dt1.columns[:-1].values, 
               class_names=list(dt1.columns[-1]), 
               title="Decision Tree-挑瓜") 
viz

决策树的用途就是用于进行分类，既然有了决策树，我们随便构建一个样本，预测一下看看它会被分到哪个类别里去吧？

t=['乌黑','蜷缩','清脆','模糊','平坦','硬滑']
t=pd.DataFrame(t).T.applymap(convert)
clf.predict(t)

结果为：
array([2], dtype=int64)，按我这里的话，就是否的这一类了。
如果把纹理改为清晰呢？

t=['乌黑','蜷缩','清脆','清晰','平坦','硬滑']
t=pd.DataFrame(t).T.applymap(convert)
clf.predict(t)

结果成了：array([1], dtype=int64)，就是个好瓜了。

案例2：网上写烂了的打网球的案例。
这个案例主要是根据天气、温度、湿度等因素判断是否该去打网球，过程基本和前面的一样，我就不再赘述了，直接给个结果图吧，主要是前面的第2、3种方法画的。
在这里插入图片描述

其实看看这俩图，可能本人审美不足，也没感觉出后面这个图帅在哪里。

案例3：销售决策
这个例子呢，我就不知道具体是什么产品了，反正先当成衣服吧，主要有性别、类型和尺码三个特征属性，然后是一个产品类型的类别属性。主要是判断当给定特征属性时的某个用户，应该给他（她）推荐哪类产品。
过程也不赘述了，直接上棵树，看看能不能做出和我一样的效果？
在这里插入图片描述
这个地方偷了个懒，没有将类别属性的名称修改一下，所以如果是‘产’，就认为是C0，如果是‘品’就认为是C1吧。