| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 客群画像|解决分群与特征分类问题,试一下这个处理方法 -> 正文阅读 |
|
[人工智能]客群画像|解决分群与特征分类问题,试一下这个处理方法 |
在信贷产品业务中,客户分群是一项重要内容,无论是针对风控的定制化管理,还是面向营销的价值度分层,客群分类的画像分析始终发挥着重要作用。从数据分析与挖掘的角度来讲,若实现存量客户的群体划分,往往采用机器学习中的聚类算法来高效完成,最常见的莫过于Kmeans无监督算法,不仅原理逻辑较为简单,而且实现过程也极为方便。 1、层次聚类的原理
在以上层次树状分布图中,横坐标表示样本数据点,纵坐标表示簇类距离,通过图表信息可以很直观的了解到从下到上的层次聚类过程。其中,垂直线长度越大,说明簇类之间的距离越大,例如我们设置距离阈值为12,则聚类的数量为阈值水平线与垂直距离线相交点的数量(2),这样得到2个簇类具体包含的样本分别为(1、2、4)和(3、5)。层次聚类根据树状结构图来分析合适聚类数量的过程,相比Kmeans聚类的肘部图原理,显然更为直观方便,而且更具有客观数据分布的合理性。 2、实例样本分析与处理 ?
根据以上建模样本,我们在python环境采用describe()函数简单对数据进行探索分析,输出的eda分布结果如图4所示,可以从count结果获知样本各特征均无缺失值情况。同时,从极值、分位值等统计指标了解到,各特征均无明显的异常值分布。 由于层次聚类模型的原理思想,同样需要根据样本距离来确定簇类合并,因此在模型训练前需要将特征样本数据进行标准化处理,以避免特征的不同量纲导致的样本距离结果影响。特征数据的标准化处理,已是层次聚类、Kmeans聚类等模型算法的必然前置的数据处理步骤。本文数据的特征标准化处理过程如图5所示,输出结果样例如图6所示。 ? 3、层次聚类模型实现 ?
从上图可知,由于蓝色垂直线的长度最大,因此可以将聚类距离阈值定义为1.00,则通过阈值横线与聚类纵线交叉的结果,获取本样本数据比较合适的聚类数量为2。当确定了合适的簇类数后,接着便可以采用层次聚类拟合函数来进行模型训练,实现过程如图9所示。同时,为了形象展示样本客群聚类后的效果,我们选择air_travel、credit_use这2个特征,来绘制二维分布散点图,以反映不同客群的分布特点,输出的可视化结果如图10所示。 ? 由以上聚类结果的簇类分布可知,两个样本客群在air_travel(最近1个月航旅出行次数)、credit_use(最近6个月信用卡交易次数)的交叉维度上,簇内的聚集程度、簇类的离散程度都是较为明显的,直接反映了聚类模型的效果较佳,也就是客群特征的区分度是比较好的。 ? 根据以上簇类画像的汇总结果,可知这2个簇类的样本频数分布是比较均衡的,这也进一步反映了聚类结果的合理性。此外,我们围绕以上特征来简单描述下这2个客群的画像分布:最近1个月航旅出行的平均次数(air_travel)是相同的(均为1),但客群1的分布差异稍大;最近6个月信用卡交易次数(credit_use),客群1(25)明显大于客群2(4),说明前者的消费水平高于后者,营销价值较高,这对于产品的额度调整、再次营销等,具有很好的参考作用。这里仅选取特征air_travel和credit_use来分析的,在实际场景中可以对参与模型训练的所有特征来全面分析,这样得到的客群画像更为具体,从而为实际业务提供更多的信息价值。 综合以上内容,我们对层次聚类的原理逻辑与实现过程进行了解读,同时围绕具体样本数据,完成了客户分群的聚类模型,并描述各簇结果的画像特点。为了便于大家对层次聚类的进一步熟悉与理解,本文额外附带了与以上内容同步的python代码与样本数据,供大家参考学习,详情请移至知识星球参考相关内容。 更多详细内容,有兴趣的童鞋可关注:、 … ~原创文章 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 22:49:10- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |