sklearn.tree包括决策分类树和决策回归树,决策回归树涉及参数:klearn.tree.DecisionTreeRegressor(, criterion=‘mse’, splitter=‘best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, ccp_alpha=0.0), criterion:用于特征选择,可以取{“mse”, “friedman_mse”, “mae”, “poisson”}, 默认为MSE使用均方误差来最小化损失; splitter:控制随机分支策略,可取{“best”, “random”}, 默认best在随机分支中优先选择最重要的特征进行分支; max_depth控制树的深度; min_samples_split:限制分支所包含的最小训练样本数; min_samples_leaf:限制分支后子节点必须包含最小训练样本。一般搭配max_depth使用,可以使模型更加平滑; min_weight_fraction_leaf:限制叶子节点样本权重和的最小值,小于该值就会和兄弟节点一起被剪掉; max_features:限制分支时考虑特征数,用于高纬度数据的预防过拟合的剪枝策略; random_state:用于控制树的随机性,为int则为random_state的随机数生成器种子,为RandomState则为随机数生成器,为None则为随机数生成器使用np.random的RandomState实例; max_leaf_nodes:用于基于权重的剪枝控制参数; min_impurity_decrease:从信息增益角度限制分支,信息增益低于该值就不进行分支; min_impurity_split:与min_impurity_decrease一样,不同版本可能用不同的参数基于信息增益控制分支; ccp_alpha:控制树的复杂度; 决策分类树涉及参数与决策回归树参数存在很多重合, class sklearn.tree.DecisionTreeClassifier(, criterion=‘gini’, splitter=‘best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, ccp_alpha=0.0) 不同的地方在于参数criterion的取值不同,决策分类树中该参数取值{‘gini‘,’entropy‘},默认使用gini基尼不纯度进行特征选择。
|