开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> 【机器学习】决策树 -> 正文阅读

[数据结构与算法]【机器学习】决策树

文章目录

决策树

学习视频：
《菜菜的机器学习sklearn课堂》_哔哩哔哩_bilibili

决策树

1.概述

1.1决策树是如何工作的

决策树（Decision Tree）是一种非参数（可以处理各种各样的数据）的有监督学习（就是必须要有标签）方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。

决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。

在这个决策过程中，一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点，在得到结论前的每一个问题都是中间节点，而得到的每一个结论（动物的类别）都叫做叶子节点。

根节点：没有进边，有出边。包含最初的，针对特征的提问；
中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问；
叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签。
子节点和父节点：在两个相连的节点中，更接近根节点的是父节点，另一个是子节点。

对于决策树算法来说，其核心就是解决以下两个问题：

如何从数据表中找出最佳节点和最佳分枝？
如何让决策树停止生长，防止过拟合？

1.2 sklearn中的决策树

模块sklearn.tree

sklearn中的决策树的”类“都是”tree“这个模块下，这个模块总共包括5个类
在这里插入图片描述

sklearn的基本建模流程

在这里插入图片描述

调用适合的类，然后确定参数，训练模型利用fit接口，提取有用的信息，例如score就是对分类模型进行打分的。在此流程下，分类树对应的代码：

from sklearn import tree              #导入需要的模块

clf = tree.DecisionTreeClassifier()   #实例化
clf = clf.fit(X_train,y_train)        #用训练集数据训练模型
result = clf.score(X_test,y_test)     #导入测试集，从接口中调用需要的信息

2.DecisionTreeclassifier与红酒数据集

2.1重要参数

2.1.1 criterion

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个“最佳”的指标叫做==“不纯度”==。通常来说，不纯度越低，决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。
不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择：

（1）输入"entropy"，使用信息（Entropy）
$Entropy\left( t \right) =-\sum_{i=0}^{c-1}{p\left( i|t \right) \log _2p\left( i|t \right)}$
（2）输入"gini"，使用基尼系数（Gini Impurity）
$Gini=1-\sum_{i=0}^{c-1}{p\left( i|t \right) ^2}$
其中t是表示的给定节点，i表示的是标签的任意分类， $p\left(i|t\right)^2$ 表示的是标签分类i在节点t上所占的比例。

在sklearn中计算信息熵时，是基于信息熵的信息增益（Information Gain），也就是父节点的信息熵和子节点信息熵的差。相比于基尼系数来说，信息熵对不纯度更加敏感，对不纯度的惩罚最强，但是在实际使用过程中，信息熵和基尼系数的效果基本一样。信息滴的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息滴对不纯度更加敏感，所以信息滴作为指标时，决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数据，信息摘很容易过拟合，基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候，即当模型在训练集和测试集上都表现不太好的时候，使用信息滴。当然，这些不是绝对的。

对于criterion参数

确定不纯度的计算方法，帮忙找出最佳节点和最佳分枝，不纯度越低，决策树对训练集的拟合越好；
改参数有两个选择：gini或entropy，默认状态下是gini；
通常情况下使用基尼系数，数据维度很大，噪音很大时使用基尼系数；维度低，数据比较清晰的时候，信息滴和基尼系数没区别当决策树的拟合程度不够的时候，使用信息滴两个都试试，不好就换另外一个。

对于决策树的基本流程可以简单的概况为：

在这里插入图片描述

直到没有更多的特征可用，或整体的不纯度指标已经最优，决策树就会停止生长。

在了解了第一个参数后，利用Python中自带的红酒数据建立一个树

（1）导入模块

from sklearn import tree #导入决策树的模块
from sklearn.datasets import 1oad_wine #导入红酒数据,datasets是sklearn自带的，有各种各样的数据
from sklearn.model_selection import train_test_split#导入划分测试集和训练集的模块

（2）探索数据

wine = load_wine()
wine.data#数据的特征
win.target#数据标签

#把wine数据转换成一张表
import pandas as pd
pd.concat([pd.DataFrame (wine.data) , pd.DataFrame(wine.target)],axis=1)
wine.feature_names #特征名字
wine.target_names  #标签名字

（3）划分训练集和测试集

Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)

Xtrain.shape
Xtest.shape

（4）建立模型

多数运行下面的代码会呈现不同的结果，

clf = tree.DecisionTreeClassifier(criterion="entropy")
clf = clf.fit(Xtrain, Ytrain)   #fit就是训练的接口
score = clf.score(Xtest, Ytest) #返回预测的准确率
score

（5）画出一棵树

feature_name=['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氮酸']

import graphviz #需要安装不是自带的
dot_data = tree.export_graphviz(clf  #输入训练好的模型
								,feature_names= feature_name #特征名字
								,class_names=["琴酒"，"雪莉"，"贝尔摩德"]#标签名
								,filled=True #框的颜色
								,rounded=True#框的形状
                               )


graph = graphviz.Source(dot_data)
graph

（6）探索决策树

#特征重要性
clf.feature_importances_

[*zip(feature_name,clf.feature_importances_)]

在只了解一个参数的情况下，建立了一棵完整的决策树。但是回到步骤4建立模型，score会在某个值附近波动，引起步骤5中画出来的每一棵树都不一样。它为什么会不稳定呢？如果使用其他数据集，它还会不稳定吗？我们之前提到过，无论决策树模型如何进化，在分枝上的本质都还是追求某个不纯度相关的指标的优化，而正如我们提到的，不纯度是基于节点来计算的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但最优的节点能够保证最优的树吗？集成算法被用来解决这个问题：sklearn表示，既然一棵树不能保证最优，那就建更多的不同的树，然后从中取最好的。怎样从一组数据集中建不同的树？在每次分枝时，不从使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分枝用的节点。这样，每次生成的树也就不同了。

使用random_state是来控制随机性的

2.1.2 random_state &splitter

random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据
（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

splitter也是用来控制决策树中的随机选项的，有两种输入值，输入"best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入"random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合，用这两个参数来帮助你降低树建成之后过拟合的可能性。当然，树一旦建成，我们依然是使用剪枝参数来防止过拟合。

clf = tree.DecisionTreeClassifier(criterion="entropy"
								,random_state=30
								,splitter="random"
								)
clf = clf.fit(Xtrain, Ytrain)   #fit就是训练的接口
score = clf.score(Xtest, Ytest) #返回预测的准确率
score

import graphviz #需要安装不是自带的
dot_data = tree.export_graphviz(clf  #输入训练好的模型
								,feature_names= feature_name #特征名字
								,class_names=["琴酒"，"雪莉"，"贝尔摩德"]#标签名
								,filled=True #框的颜色
								,rounded=True#框的形状
                               )


graph = graphviz.Source(dot_data)
graph

2.1.3剪枝参数

在不加限制的情况下，一棵决策树会生长到衡量不纯度的指标最优，或者没有更多的特征可用为止。这样的决策树往往会过拟合，这就是说，它会在训练集上表现很好，在测试集上却表现糟糕。我们收集的样本数据不可能和整体的状况完全一致，因此当一棵决策树对训练数据有了过于优秀的解释性，它找出的规则必然包含了训练样本中的噪声，并使它对未知数据的拟合程度不足。

#我们的数对训练集的拟合程度如何？
sore_train = clf.sore(Xtrain,Ytrain)
sore_train

为了让决策树有更好的泛化性，我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心。sklearn为我们提供了不同的剪枝策略：

max_depth

（1）此参数是限制树的最大深度，超过设定深度的树枝全部剪掉；

（2）此参数是用得最广泛的剪枝参数，对于分析高维度低样本量问题中非常有效。因为决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合；

（3）此参数对于集成算法中也非常实用。实际使用时，建议从3开始尝试，看看拟合的效果再决定是否增加设定深度。

min_samples_leaf （叶子节点的重要参数） min_samples_split

（1）此参数是限定一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生；

（2）一般和max_depth参数搭配使用，此参数在对于回归的问题会使得模型变得更加平滑；

（3）此参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据，会浪费数据。一般来说，建议从5开始使用。如果叶节点中含有的样本量变化很大，建议输入浮点数作为样本量的百分比来使用。同时，这个参数可以保证每个叶子的最小尺寸，可以在回归问题中避免低方差，过拟合的叶子节点出现。对于类别不多的分类问题，1通常就是最佳选择。

min_samples_split

此参数是要求一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝，否则分枝就不会发生。

clf = tree.DecisionTreeClassifier(criterion='entropy'
                                 ,random_state=30
                                 ,splitter='random'
                                 ,max_depth=3
                                 ,min_samples_leaf=10
                                 ,min_samples_split=10
                                 )


clf = clf.fit(Xtrain, Ytrain)   #fit就是训练的接口
score = clf.score(Xtest, Ytest) #返回预测的准确率
score

import graphviz #需要安装不是自带的
dot_data = tree.export_graphviz(clf  #输入训练好的模型
								,feature_names= feature_name #特征名字
								,class_names=["琴酒"，"雪莉"，"贝尔摩德"]#标签名
								,filled=True #框的颜色
								,rounded=True#框的形状
                               )


graph = graphviz.Source(dot_data)
graph

clf.score(xtrain, Ytrain)
clf.score(xtest, Ytest)

max_features & min_impurity_decrease

（1）max_features是用来限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。和max_depth异曲同工，max_features是用来限制高维度数据的过拟合的剪枝参数，但其方法比较暴力，是直接限制可以使用的特征数量而强行使决策树停下的参数，在不知道决策树中的各个特征的重要性的情况下，强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合，建议使用PCA，ICA或者特征选择模块中的降维算法。
（2）min_impurity_decrease是用来限制信息增益的大小，信息增益小于设定数值的分枝不会发生。这是在0.19版本中更新的功能，在0.19版本之前时使用min_impurity_split。

确定最优参数

知道了修枝参数了，怎么才能确定最优的修枝参数呢？这时候需要根据超参数的曲线来判断最优修枝参数。

超参数的学习曲线，是一条以超参数的取值为横坐标，模型的度量指标为纵坐标的曲线，它是用来衡量不同超参数取值下模型的表现的线。在我们建好的决策树里，我们的模型度量指标就是score。

import matplotlib.pyplot as plt  #引入画图模块

#建立一个for循环，让max_depth参数在1-10循环，分别计算在测试集的表现，来画学习曲线
test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(max_depth=i+1
                                     ,criterion="entropy"
                                     ,random_state=30
                                     ,splitter="random"
                                     )
    clf = clf.fit(Xtrain, Ytrain)
    score = clf.score(Xtest, Ytest)
    test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

总结：调参不一定能提升模型在测试集上的表现，没有绝对的答案，这都是需要根据数据本身来确定的，对于剪枝参数来说默认值会让树无尽的生长这些树在某些数据集上可能非常巨大，对内存的消耗也非常巨大。所以如果你手中的数据集非常巨大，你已经预测到无论如何你都是要剪枝的，那提前设定这些参数来控制树的复杂性和大小会比较好。归根结底一切的调参都是需要从数据本身出发。

2.1.4目标权重参数

class_weight & min_weight_fraction_leaf

这两个参数是完成样本标签平衡的参数。

样本不平衡是指在一组数据集中，标签的一类天生占有很大的比例。比如说，在银行要判断“一个办了信用卡的人是否会违约”，就是是vs否（1%：99%）的比例。这种分类状况下，即便模型什么也不做，全把结果预测成"否"，正确率也能有99%。

对于不均衡的样本要使用class_weight参数对样本标签进行一定的均衡，其原理就是给少量的标签更多的权重，让模型更偏向少数类，向捕获少数类的方向建模。该参数默认None，此模式表示自动给与数据集中的所有标签相同的权重。

有了权重之后，样本量就不再是单纯地记录数目，而是受输入的权重影响了，因此这时候剪枝，就需要搭配min_
weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意，基于权重的剪枝参数（例如min_weight_
fraction_leaf）将比不知道样本权重的标准（比如min_samples_leaf）更少偏向主导类。如果样本是加权的，则使用基于权重的预修剪标准来更容易优化树结构，这确保叶节点至少包含样本权重的总和的一小部分。

2.2重要属性和接口

属性：就是指模型训练之后，能够调用查看的模型的各种性质。对于决策树来说，其最重要的属性就是feature_importances_，此属性可以查看各个特征对模型的重要性。

对于sklearn模块，很多算法的接口都是相似的，就如fit和score几乎对每个算法都可以使用。除了这两个接口之外，决策树最常用的接口还有apply和predict。

apply：此接口是输入测试集返回每个测试样本所在的叶子节点的索引；

predict：此接口是输入测试集返回每个测试样本的标签。

值得注意的是，所有接口中要求输入X_train和X_test的部分，输入的特征矩阵必须至少是一个二维矩阵。
sklearn不接受任何一维矩阵作为特征矩阵被输入。如果你的数据的确只有一个特征，那必须用reshape（-1，1）来给矩阵增维；如果你的数据只有一个特征和一个样本，使用reshape（1，-1）来给你的数据增维。

#apply返回每个测试样本所在的叶子节点的索引
clf.apply(Xtest)
#predict返回每个测试样本的分类/回归结果
clf.predict(Xtest)

分类树的总结

至上，介绍了分类树DecisionTreeClassifier和用决策树绘图（export_graphviz）的所有基础，了解了决策树的基本流程，分类树的八个参数，一个属性，四个接口，以及绘图所用的代码。
八个参数：Criterion，两个随机性相关的参数（random_state，splitter），五个剪枝参数（max_depth，min_samples_split，min_samples_leaf，max_feature，min_impurity_decrease）
一个属性：feature_importances_
四个接口：fit，score，apply，predict

3.回归树

回归树几乎所有参数、属性、接口和分类树一样，只是在回归树中没有标签分布是否均衡的问题，因此没有class_weight这样的参数。

回归树用的是DecisionTreeRegressor类

3.1重要参数，属性及接口

criterion

回归没有不纯度的定义，回归树中衡量分枝质量的指标有三种：

（1）mse：均方误差mean squared error（MSE），父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失；
$MSE=\frac{1}{N}\sum_{i=1}^N{\left( f_i-y_i \right) ^2}$
其中N是样本数量，i是每个数据样本， $f_i$ 是回归树输出的结果， $y_i$ 是样本点i的实际值，因此MSE的本质就是真实值和回归结果的差异；

（2）friedman_mse：费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差；

（3）mae：绝对平均误差MAE（mean absolute error），这种指标使用叶节点的中值来最小化L1损失属性中最重要的依然是feature_importances_，接口依然是apply，fit，predict，score最核心。

在回归树中MSE不只是我们的分枝质量衡量指标，也是我们最常用的衡量回归树回归质量的指标，当我们在使用交叉验证，或者其他方式获取回归树的结果时，我们往往选择均方误差作为我们的评估（在分类树中这个指标是score代表的预测准确率）。在回归中，我们追求的是，MSE越小越好。但是，回归接口score返回的是 $R^2$ ,
$R^2=1-\frac{u}{v}\text{，}u=\sum_{i=1}^N{\left( f_i-y_i \right) ^2}\ \ v=\sum_{i=1}^N{\left( y_i-\widehat{y} \right) ^2}$
其中，u是残差平方和，v是总平方和，N是样本数量，i是每个数据样本， $f_i$ 是回归树输出的结果， $y_i$ 是样本点i的实际值， $\widehat{y}$ 是真实值的平均值。 $R^2$ 是可正可负的（最小为负无穷，最大为1），当模型的残差平方和远远大于模型的总平方和，模型非常糟糕， $R^2$ 就会为负，而均方误差永远为正。

注：虽然均方误差永远为正，但是sklearn当中使用均方误差作为评判标准时，却是计算"负均方误差"（neg_mean_squared_error）。这是因为sklearn在计算模型评估指标的时候，会考虑指标本身的性质，均方误差本身是一种误差，所以被sklearn划分为模型的一种损失（loss），因此在sklearn当中，都以负数表示。真正的均方误差MSE的数值，其实就是neg_mean_squared_error去掉负号的数字。

交叉验证是用来观察模型的稳定性的一种方法，我们将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果，因此用交叉验证n次的结果求出的平均值，是对模型效果的一个更好的度量。

在这里插入图片描述

from sklearn.datasets import load_boston 
from sklearn.model_selection import cross_val_score 
from sklearn.tree import DecisiontreeRegressor 

boston = 1oad_boston()
regressor = DecisionTreeRegressor(random_state=0)
cross_val_score(regressor, boston.data, boston.target, cV=10
                #,scoring = "neg_mean_squared_error"
               )
#交叉验证cross_val_score的用法,第一个参数是实例化的模型，第二个参数是不需要划分训练集和测试集的数据X，第二个参数是不需要划分训练集和测试集的数据Y,第四个参数是确定做几折交叉，

3.2 实例：一维回归的图像绘制

用回归树来拟合正弦曲线，并添加一些噪声来观察回归树的表现。

（1）导入需要的库

import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt

（2）创建一条含有噪声的正弦曲线

在这一步，我们的基本思路是，先创建一组随机的，分布在0-5上的横坐标轴的取值（x），然后将这一组值放到sin函数中去生成纵坐标的值（y），接着再到y上去添加噪声。全程我们会使用numpy库来为我们生成这个正弦曲线。

rng = np.random.RandomState(1)#创建一个随机数种子

X = np.sort(5 * rng.rand(80,1), axis=0)#生成0-5之间随机生成的X
y = np.sin(X).ravel()#生成正弦曲线
y[::5] += 3 * (0.5 - rng.rand(16))#在正弦曲线上加噪声
#np.random.rand(数组结构)，生成随机数组的函数
#了解降维函数ravel()的用法
np.random.random((2,1))
np.random.random((2,1)).ravel()
np.random.random((2,1)).ravel().shape

（3）实例化&训练模型

regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor (max_depth=5)
regr_1. fit(X, y) regr_2. fit(x, y)

（4）测试集导入模型，预测结果

X_test = np.arange(0.0,5.0,0.01)[:,np.newaxis]
y_l = regr_1.predict(X_test)
y_2 = regr_2.predict(X_test)
#np.arrange（开始点，结束点，步长）生成有序数组的函数
#了解增维切片np.newaxis的用法
l = np.array([1，2，3，4])
l
l.shape
l[:,np.newaxis]
l[:,np.newaxis].shape

l[np.newaxis,:].shape

（5）绘制图像

plt.figure()
plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")
plt.plot(X_test, y_1, color="cornflowerblue",label="max_depth=2", linewidth=2)
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()#显示图例
plt.show()

可见，回归树学习了近似正弦曲线的局部线性回归。我们可以看到，如果树的最大深度（由max_depth参数控制）设置得太高，则决策树学习得太精细，它从训练数据中学了很多细节，包括噪声得呈现，从而使模型偏离真实的正弦曲线，形成过拟合。

4.实例：泰坦尼克号幸存者的预测

泰坦尼克号的沉没是世界上最严重的海难事故之一，我们通过分类树模型来预测一下哪些人可能成为幸存者。数据集来着https://www.kaggle.com/c/titanic，数据集包含两个csv格式文件，data为我们接下来要使用的数据，test为kaggle提供的测试集,test现在我们不会用到，没有标签的，也就是没有结果。

（1）导入所需的库

import pandas as pd 
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt

（2）导入数据集，探索数据

data = pd.read_csv(r"C:\work\learnbetter\micro-class\week 1 DT\data\data.csv",index_col
= 0)

data.head()
data.info()

（3）数据预处理

#删除缺失值过多的列，和观察判断来说和预测的y没有关系的列，inplace=True表示的是删除后的表覆盖原表，默认的是false,axis=1表示对列进行操作。
data.drop(["Cabin","Name","Ticket"],inplace=True,axis=1)

#处理缺失值，对缺失值较多的列进行填补，有一些特征只确实一两个值，可以采取直接删除记录的方法
data["Age"] = data["Age"].fillna(data["Age"].mean())
data = data.dropna()

#决策树不能处理文字

#将二分类变量转换为数值型变量
#astype能够将一个pandas对象转换为某种类型，和apply(int(x))不同，astype可以将文本类转换为数字，用这个方式可以很便捷地将二分类特征转换为0~1
data.loc[:,"Sex"] = (data["Sex"]== "male").astype("int")


#将三分类变量转换为数值型变量
labels = data["Embarked"].unique().tolist()
data["Embarked"] = data["Embarked"].apply(lambda x: labels.index(x))
#查看处理后的数据集
data.head()

（4）提取标签和特征矩阵，分测试集和训练集

X = data.iloc[:,data.columns != "Survived"] #取出所有的行和除Survived的列

y = data.iloc[:,data.columns == "Survived"]

from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.3)

#因为是随机的，所有索引不连续
#修正测试集和训练集的索引，
for i in [Xtrain, Xtest, Ytrain, Ytest]:
    i.index = range(i.shape[0])
    
#查看分好的训练集和测试集
Xtrain.head()

（5）导入模型

clf = DecisionTreeClassifier(random_state=25)
clf = clf.fit(Xtrain, Ytrain)
score_ = clf.score(Xtest, Ytest)
score_
score = cross_val_score(clf,X,y,cv=10).mean()
score

（6）调max_depth参数

tr = []
te = []
for i in range(10):
    clf = DecisionTreeClassifier(random_state=25
                                 ,max_depth=i+1
                                 ,criterion="entropy"
                               )
    clf = clf.fit(Xtrain, Ytrain)
    score_tr = clf.score(Xtrain,Ytrain)
    score_te = cross_val_score(clf,X,y,cv=10).mean()
    tr.append(score_tr)
    te.append(score_te)
print(max(te))
plt.plot(range(1,11),tr,color="red",label="train")
plt.plot(range(1,11),te,color="blue",label="test")
plt.xticks(range(1,11))
plt.legend()
plt.show()
#这里为什么使用“entropy”？因为我们注意到，在最大深度=3的时候，模型拟合不足，在训练集和测试集上的表现接近，但却都不是非常理想，只能够达到83%左右，所以我们要使用entropy。

（7）用网格搜索调整参数

能够帮助我们同时调整多个参数的技术（枚举技术），其缺点耗时大。

import numpy as np
gini_thresholds = np.linspace(0,0.5,20)
#一串参数和这些参数对应的，我们希望网格搜索来搜索的参数的取值范围
parameters = {'splitter':('best','random')
             ,'criterion':("gini","entropy")
             ,"max_depth":[*range(1,10)]
             ,'min_samples_leaf':[*range(1,50,5)]
             ,'min_impurity_decrease':[*np.linspace(0,0.5,20)]
             }
clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, parameters, cv=10)
GS.fit(Xtrain,Ytrain)


GS.best_params_  #从我们输入的参数和参数取值的列表中，返回最佳组合
GS.best_score_   #网格搜索后的模型的评判标准

5.决策树的优缺点

5.1决策树优点

易于理解和解释，因为树木可以画出来被看见；
需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。但请注意，sklearn中的决策树模块不支持对缺失值的处理；
使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，这是一个很低的成本；
能够做回归又可以做分类，其他技术通常专门用于分析仅具有一种变量类型的数据集；
能够处理多输出问题，即含有多个标签的问题，注意与一个标签中含有多种标签分类的问题区别开；
是一个白盒模型，结果很容易能够被解释。如果在模型中可以观察到给定的情况，则可以通过布尔逻辑轻松解释条件。相反，在黑盒模型中（例如，在人工神经网络中），结果可能更难以解释；
可以使用统计测试验证模型，这让我们可以考虑模型的可靠性；
即使其假设在某种程度上违反了生成数据的真实模型，也能够表现良好。

5.2决策树缺点

决策树学习者可能创建过于复杂的树，这些树不能很好地推广数据。这称为过度拟合。修剪，设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的，而这些参数的整合和调整对初学者来说会比较晦涩；
决策树可能不稳定，数据中微小的变化可能导致生成完全不同的树，这个问题需要通过集成算法来解决；
决策树的学习是基于贪梦算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优决策树。这个问题也可以由集成算法来解决，在随机森林中，特征和样本会在分枝过程中被随机采样；
有些概念很难学习，因为决策树不容易表达它们，例如XOR，奇偶校验或多路复用器问题；
如果标签中的某些类占主导地位，决策树学习者会创建偏向主导类的树。因此，建议在拟合决策树之前平衡数据集。