1.模型构建

1.1 算法选择

常用分类算法：逻辑回归、xgboost和lightgbm

1.2 损失函数选择

对于回归问题常选择MSE和MAE，本节重点讲解分类问题的损失函数
● 二分类问题
log损失函数(log-loss)结果能非常好地表征概率分布。因此在很多场景，尤其是多分类场景下，如果我们需要知道结果属于每个类别的置信度，那这个损失函数很适合。缺点是它的健壮性没有那么强。在lightgbm中可以令objective=binary，调用二分类的log-loss
● 多分类问题
在lightgbm中可以令objective=softmax即可
● 交叉墒 cross-entropy
二分类和多分类问题均可使用，在lightgbm中可以令objective=cross_entropy即可
注：对数损失函数和交叉熵损失函数应该是等价的，因此在实际项目中选其一即可，证明见：https://zhuanlan.zhihu.com/p/58883095

1.3 调参思路

调参可用随机网格搜索
● xgboost调参：
○ 保持learning rate和其他booster相关的参数不变，调节和estimators的参数。learing_rate可设为0.1, max_depth设为4-6之间，min_child_weight设为1，subsample和colsample_bytree设为0.8 ，其他的参数都设为默认值即可。
○ 调节max_depth 和 min_child_weight参数，首先，我们先大范围地粗调参数，然后再小范围地微调。
○ gamma参数调优
○ subsample和colsample_bytree 调优
○ 正则化参数调优，选择L1正则化或者L2正则化
● lightgbm调参：
○ 参考资料：https://blog.csdn.net/u012735708/article/details/83749703
○ 具体代码见：https://creditx.yuque.com/it4hgz/bb8t41/grzacv的《机器学习》章节

2 模型评价

一般根据不同的业务场景，会选择不同的评价指标，常见的评价指标如下：

2.1 KS值

KS值越大，表示模型能够将正、负样本区分开的程度越大。通常来讲，KS>0.2即表示模型有较好的预测准确性。

2.2 ROC曲线和AUC

我们建立ROC曲线的根本目的是找寻Recall和FPR之间的平衡，让我们能够衡量模型在尽量捕捉少数类的时候，误伤多数类的情况会如何变化。曲线越靠近左上角越好，越往下越糟糕，曲线如果在虚线的下方，则证明模型完全没法使用。如果曲线越靠近右下角说明模型的预测结果与真实情况完全相反，此时只要手动将预测结果逆转即可，最糟糕的情况是，曲线位于图像中间，和虚线非常靠近，此时我们就拿它没啥办法。
AUC量化了ROC曲线下方的面积，这个面积越大，代表ROC曲线越靠近左上角，模型越好，即AUC越接近于1，模型效果越好。