Pandas高级数据分析快速入门之一——Python开发环境篇 Pandas高级数据分析快速入门之二——基础篇 Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇 Pandas高级数据分析快速入门之四——数据可视化篇 Pandas高级数据分析快速入门之五——机器学习特征工程篇 Pandas高级数据分析快速入门之六——机器学习预测分析篇
0. 训练集、测试集
标注客户交易特征数据集[4] ,经过流失标注(流失为1,不流失为0),拆分为训练集、测试集两部分,训练集用于建立模型,测试集评估模型的预测等能力。
如何拆分训练集和测试集?
train_test_split()函数是用来随机划分样本数据为训练集和测试集的,是从样本中随机的按比例选取train_data和test_target。
优点:随机客观的划分数据,减少人为因素
完整模板:
x_train,x_test, y_train, y_test = train_test_split(train_data,train_target,test_size=0.3,random_state=5)
参数解释:
- train_data:待划分样本数据
- train_target:待划分样本数据的结果(标签)
- test_size:测试数据占样本数据的比例,若整数则样本数量
- random_state:设置随机数种子,保证每次都是同一个随机数。若为0或不填,则每次得到数据都不一样
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import xgboost as xgb
from xgboost import plot_importance
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score,precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import roc_auc_score
把数据集拆分为训练集和测试集。
Columns_Name = ['flag','carduser_id','balance','balancerate',...]
df = pd.read_csv('train0605.csv')
cols = Columns_Name.copy()
cols.remove('carduser_id')
df = df[cols]
flag_col = 'flag'
X = df.drop([flag_col],axis=1)
Y = df[[flag_col]]
x_train,x_test, y_train, y_test = train_test_split(X,Y,test_size=0.3)
1. XGBoost分类模型训练
XGBoost号称“比赛夺冠的必备大杀器”,横扫机器学习Kaggle、天池、DataCastle、Kesci等国内外数据竞赛罕逢敌手,堪称机器学习算法中的王者,业界使用者众多!
在涉及非结构化数据(图像、文本等)的预测问题中,人工神经网络显著优于所有其他算法或框架。但当涉及到中小型结构/表格数据时,基于决策树的算法现在被认为是最佳方法。而基于决策树算法中最惊艳的,非XGBoost莫属了。
XGBoost最初由陈天奇开发。陈天奇是华盛顿大学计算机系博士生,研究方向为大规模机器学习。他曾获得KDD CUP 2012 Track 1第一名,并开发了SVDFeature,XGBoost,cxxnet等著名机器学习工具,是Distributed (Deep) Machine Learning Common的发起人之一。
1.1. 输入数据集
XGBoost中使用的数据矩阵DMatrix。
DMatrix是XGBoost使用的一种内部数据结构,它针对内存效率和训练速度进行了优化。您可以从多个不同的数据源构造DMatrix。
xgboost.DMatrix(data,label=None,*,weight=None…)
参数:
data(os.PathLike/string/numpy.array/scipy.sparse/pd.DataFrame/)–DMatrix的数据源。xgboost可以读取的二进制文件。
label – 训练数据的标签。
dtrain = xgb.DMatrix(x_train, label=y_train)
dtest = xgb.DMatrix(x_test,label=y_test)
1.2. 超参数设置
学习任务参数objective
objective [默认= reg:squarederror]
- multi:softmax:设置XGBoost以使用softmax目标进行多类分类,还需要设置num_class(类数)
- multi:softprob:与softmax相同,但输出向量,可以进一步将其整形为矩阵。结果包含属于每个类别的每个数据点的预测概率。ndata * nclass
验证数据的评估指标eval_metric [根据目标默认]
- mlogloss:多分类的logloss
- merror:多类分类错误率。计算公式为。#(wrong cases)/#(all cases)
Tree Booster参数
- eta[默认= 0.3,别名:learning_rate]
在更新中使用步长收缩以防止过度拟合。在每个增强步骤之后,我们都可以直接获得新特征的权重,并eta缩小特征权重以使增强过程更加保守。范围:[0,1] - gamma[默认= 0,别名:min_split_loss]
在树的叶节点上进行进一步分区所需的最小损失减少。越大gamma,算法将越保守。范围:[0,∞] - max_depth [默认= 6]
一棵树的最大深度。增加此值将使模型更复杂,并且更可能过度拟合。仅lossguided当tree_method设置为hist且表示深度没有限制时,才在增长策略中接受0 。注意,训练一棵深树时,XGBoost会大量消耗内存。范围:[0,∞](仅lossguided当tree_method设置为时,增长策略才接受0 hist) - min_child_weight [默认值= 1]
子级中实例重量的最小总和(hessian)。如果树划分步骤导致叶节点的实例权重之和小于min_child_weight,则构建过程将放弃进一步的划分。在线性回归任务中,这仅对应于每个节点中需要的最少实例数。越大min_child_weight,算法将越保守。范围:[0,∞]
实际案例代码如下:
params ={'learning_rate': 0.1,
'max_depth': 10,
'num_boost_round':2000,
'gamma': 0.1,
'objective': 'multi:softprob',
'random_state': 1,
'silent':0,
'subsample':0.8,
'min_child_weight':3,
'num_class':2,
'colsample_bytree':0.9,
'seed':3,
'eval_metric':['mlogloss','merror']
}
1.3. 模型训练
watchlist = [(dtrain,'train'),(dtest,'eval')]
evals_result = {}
best_nround = 200
model = xgb.train(params,dtrain,num_boost_round=best_nround,evals = watchlist,evals_result=evals_result)
(1)学习过程监控 训练过程监控输出,使用watchlist(list数据类型)不会影响模型训练。
[0] train-mlogloss:0.62928 train-merror:0.10594 eval-mlogloss:0.63007 eval-merror:0.11204
[1] train-mlogloss:0.57597 train-merror:0.09733 eval-mlogloss:0.57752 eval-merror:0.10408
[2] train-mlogloss:0.53121 train-merror:0.09527 eval-mlogloss:0.53324 eval-merror:0.10269
[3] train-mlogloss:0.49237 train-merror:0.09376 eval-mlogloss:0.49516 eval-merror:0.10094
[4] train-mlogloss:0.45872 train-merror:0.09190 eval-mlogloss:0.46240 eval-merror:0.09932
[5] train-mlogloss:0.43001 train-merror:0.09100 eval-mlogloss:0.43436 eval-merror:0.09835
(2)可视化输出学习过程,损失、错误率变换情况:
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score,precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import roc_auc_score
print('绘制训练AUC下降趋势图')
plt.figure(111)
plt.rcParams['font.family']='sans-serif'
plt.rcParams['font.sans-serif']=['KaiTi']
plt.rcParams['axes.unicode_minus']=False
plt.grid()
plt.plot(evals_result['train']['mlogloss'],label = '训练集-损失',color='green')
plt.plot(evals_result['train']['merror'],label = '训练集-错误率',color='blue')
plt.plot(evals_result['eval']['mlogloss'],label = '评估集-损失',color='deeppink')
plt.plot(evals_result['eval']['merror'],label = '评估集-错误率',color='red')
plt.xlabel('训练次数')
plt.legend()
(4)输出预测结果
y_pred=model.predict(xgb.DMatrix(x_test))
yprob = np.argmax(y_pred, axis=1)
predictions = [value for value in yprob]
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: %.2f%%" % (accuracy * 100.0))
print(params)
Accuracy: 96.12%
{'learning_rate': 0.1, 'max_depth': 10, 'num_boost_round': 2000, 'gamma': 0.1, 'objective': 'multi:softprob', 'random_state': 1, 'silent': 0, 'subsample': 0.8, 'min_child_weight': 3, 'num_class': 2, 'colsample_bytree': 0.9, 'seed': 3, 'eval_metric': ['mlogloss', 'merror']}
绘制训练AUC下降趋势图
1.4. 模型持久化
训练结束时保存为模型文件。
test = False
Model_Filename = 'XGboost0605.model'
if test==False:
model.save_model(Model_Filename)
2. 预测结果分析
2.1. 重要特征
完成模型训练,给出特征重要分值,如下图所示显示特征重要程度图(截取部分)。 XGBoost的特征重要性是如何得到的?某个特征的重要性(feature score),等于它被选中为树节点分裂特征的次数的和,比如特征“daysnum”在第一次迭代中(即第一棵树)被选中了1次去分裂树节点,在第二次迭代被选中2次……那么最终特征“daysnum”的feature score就是 1+2+….。
fig,ax = plt.subplots(figsize=(15,15))
plt.rcParams['font.sans-serif']=['KaiTi']
plt.rcParams['font.family']='sans-serif'
plt.rcParams['axes.unicode_minus']=False
plot_importance(model, ax=ax, height=0.5, title='特征重要程度', xlabel='特征值', ylabel='特征')
plt.subplots_adjust(left=0.4)
2.2. 模型评估
基于机器学习的混淆矩阵,以及常用的准确率、精准率、召回率、F1分数、ROC与AUC曲线等做为此二分类问题模型的评价指标。
ROC与AUC曲线如图所示。 模型评估工具,使用sklearn的metrics,metrics包含了许多模型评估指标括:分类、回归、聚类等模型评估工具。
由于此部分通用性较强,封装成类Multi_class_evaluation便于使用,详情参考博文[1]。
import Multi_class_evaluation
Mce = Multi_class_evaluation.Multi_class_evaluation(y_test,y_pred,n_class=2,flag='flag')
def get_one_hot(y_pred):
y_pred = np.round(y_pred)
y_pred2 = []
for v in y_pred:
v = int(v)
tmp = np.zeros(2,dtype=np.int)
tmp[v] = tmp[v] + 1
y_pred2.append(tmp)
y_pred2 = np.array(y_pred2)
return y_pred2
Mce.calculation_ROC_AUC()
Mce.draw_ROC()
y, y_ =Mce.y, Mce.y_pred
precision = precision_score(y_test.values, np.array(predictions),average='macro')
print('precision Score: %.2f%%' % (precision*100.0))
recall = recall_score(y_test.values, np.array(predictions),average='macro')
print('Recall Score: %.2f%%' % (recall*100.0))
auc = roc_auc_score(y, y_ ,multi_class='ovo',average='macro')
print('Roc Auc Score: %.2f%%' % (auc*100.0))
3. XGBoost分类持久化模型应用
通过xgb.Booster()加载持久化模型文件,执行predict()预测方法预测。
XGB_Model = xgb.Booster(model_file=Model_Filename)
x = xgb.DMatrix(x_test)
y = XGB_Model.predict(x)
yprob = np.argmax(y, axis=1)
print(yprob)
y_pred = [value for value in yprob]
yprob = np.round(y[:,1]*100,2)
print(yprob)
附录:参数
学习任务参数objective
objective [默认= reg:squarederror]
- multi:softmax:设置XGBoost以使用softmax目标进行多类分类,还需要设置num_class(类数)
- multi:softprob:与softmax相同,但输出向量,可以进一步将其整形为矩阵。结果包含属于每个类别的每个数据点的预测概率。ndata * nclass
其他配置 - reg:squarederror:损失平方回归。
- reg:squaredlogerror:对数损失平方回归
所有输入标签都必须大于-1。另外,请参阅指标rmsle以了解此目标可能存在的问题。 - reg:logistic:逻辑回归
- reg:pseudohubererror:使用伪Huber损失进行回归,这是绝对损失的两倍可微选择。
- binary:logistic:二元分类的逻辑回归,输出概率
- binary:logitraw:用于二进制分类的逻辑回归,逻辑转换之前的输出得分
- binary:hinge:二进制分类的铰链损失。这使预测为0或1,而不是产生概率。
- count:poisson –计数数据的泊松回归,泊松分布的输出平均值
max_delta_step 在泊松回归中默认设置为0.7(用于维护优化) - survival:cox:针对正确的生存时间数据进行Cox回归(负值被视为正确的生存时间)。请注意,预测是按危险比等级返回的(即,比例危险函数中的HR = exp(marginal_prediction))。h(t) = h0(t) * HR
- survival:aft:用于检查生存时间数据的加速故障时间模型。有关详细信息,请参见具有加速故障时间的生存分析。
- aft_loss_distribution:survival:aft目标和aft-nloglik度量使用的概率密度函数。
- rank:pairwise:使用LambdaMART进行成对排名,从而使成对损失最小化
- rank:ndcg:使用LambdaMART进行列表式排名,使标准化折让累积收益(NDCG)最大化
- rank:map:使用LambdaMART进行列表平均排名,使平均平均精度(MAP)最大化
- reg:gamma:使用对数链接进行伽马回归。输出是伽马分布的平均值。例如,对于建模保险索赔的严重性或对可能是伽马分布的任何结果,它可能很有用。
- reg:tweedie:使用对数链接进行Tweedie回归。它可能有用,例如,用于建模保险的总损失,或用于可能是Tweedie分布的任何结果。
验证数据的评估指标eval_metric [根据目标默认]
- mlogloss:多分类的logloss
- merror:多类分类错误率。计算公式为。#(wrong cases)/#(all cases)
其他配置: - rmse:均方根误差
- rmsle:均方根对数误差
reg:squaredlogerror目标的默认指标。此指标可减少数据集中异常值所产生的错误。但是由于log采用功能,rmsle可能nan在预测值小于-1时输出。有关reg:squaredlogerror其他要求,请参见。
- mae:平均绝对误差
- mape:平均绝对百分比误差
- mphe:平均伪Huber错误。reg:pseudohubererror目标的默认指标。
- logloss:负对数似然
- error:二进制分类错误率。计算公式为。对于预测,评估会将预测值大于0.5的实例视为肯定实例,而将其他实例视为否定实例。#(wrong cases)/#(all cases)
- error@t:可以通过提供’t’的数值来指定不同于0.5的二进制分类阈值。
- merror:多类分类错误率。计算公式为。#(wrong cases)/#(all cases)
- auc:曲线下面积
- aucpr:PR曲线下的面积
- ndcg:归一化累计折扣
- map:平均平均精度
- ndcg@n,map@n:'n’可以被指定为整数,以切断列表中的最高位置以进行评估。
- ndcg-,map-,ndcg@n-,map@n-:在XGBoost,NDCG和MAP将评估清单的比分没有任何阳性样品为1加入-在评价指标XGBoost将评估这些得分为0,是在一定条件下一致""。
- poisson-nloglik:泊松回归的负对数似然
- gamma-nloglik:伽马回归的对数似然比为负
- cox-nloglik:Cox比例风险回归的负对数似然率
-gamma-deviance:伽马回归的剩余偏差 -tweedie-nloglik:Tweedie回归的负对数似然(在tweedie_variance_power参数的指定值处) - aft-nloglik:加速故障时间模型的负对数可能性。有关详细信息,请参见具有加速故障时间的生存分析。
- interval-regression-accuracy:其预测标签位于间隔检查的标签中的数据点的分数。仅适用于间隔检查的数据。有关详细信息,请参见具有加速故障时间的生存分析。
参考:
[1] . 肖永威 .不平衡多分类问题模型评估指标探讨与sklearn.metrics实践 ,CSDN博客 , 2021.05 [2] . 忆凡人生 .【ML-6-4-1】xgboost参数说明 ,博客园,yifanhunter, 2020.10 [3] . 肖永威 . XGBoost线性回归工控数据分析实践案例(原生篇) ,CSDN博客 ,2020.08 [4] . 肖永威 . Pandas高级数据分析快速入门之五——机器学习特征工程篇 ,CSDN博客 ,2021.09
|