一. 用户流失的定义
对于用户何时会流失、为什么会流失,是无论电商平台、时租服务、新零售业务、电子游戏领域都十分关注的点。 一般用户流失 定义为,有一段时间(一般是平均用户获取服务次数的N倍 时长)没有再次获取服务。随行业不同,市场会不一样,但对于流失 的语义都是 以后基本都不会再次再本平台获取服务。
二. 流失不是一个属性,而是组合行为的结果
在建模时,很多人会认为我把最终想要的目的 作为结果放进模型就能导出结果。但如果我们想要把一种组合的结果作为目的 ,很容易会造成逻辑错误,例如:
- 连续掷骰子
3次 均为 1 的概率是 1 / 216 - 已知前两次掷到
1 ,那么连续 3次 均掷到 1 的概率就是 1 / 6
联系到流失用户的语境,我们在分析一款手机游戏的用户流失时
- 一个用户从
首次登录 到流失 的可能是 1 / 216 - 一个用户在
3天 内不登陆游戏然后流失的概率是 1 / 6
这时候就是两个不同的问题
- 你是想知道从一个用户初始登录游戏后填完信息就知道他的流失概率
- 你是在一个用户产生了
3天 的行为数据(游戏内行为、有无登陆行为)后作出他是否会有流失概率
对于问题1 ,其实十分简单,只需要做个人群分类便可以得到一个结果,甚至不需要进行模型训练(模型训练只是为了得出延展属性,如非常规统计等直观的信息),只需要统计数据就能完成。
三. 问题2 的展开,确定逻辑是否会自洽
假设对应于社区团购超市超过3个月无购物 就算是该客户的流失,且预测周期是以周 为单位,我们拥有每个客户在最近一年一系列行为指标(购物、访问平台、出行、聊天)以及属性(性别、年龄、婚否)进行建模,考虑:
- 必然,用户上一次消费是否在最近2个月3周内是一个强相关指标
- 如果剔除,很容易会被预测大部分在
上周 刚有购物记录的人为下周 流失用户 - 如果包含,很容易被该指标作为一
强相关 指标而降低其他所有指标属性的影响力
综上得出,只要你的问题是 该用户是否为流失用户 时,这一逻辑就会被问题变成非自洽问题。
四. 分开行为跟属性
如果以另外一种方式去提问: 哪些用户会在下周 进行消费 ? 这种问题很容易会被一个客户的属性、指标进行回答,且逻辑是自洽的。 同时我们把这些客户恰好能跟 用户上一次消费是否在最近2个月3周内 组合成为判断是否潜在流失 客户的判断旗帜。
五. 如果选择流失客户还会有模型
我们可以考虑以下数据: 在100个游戏玩家之中,有93个玩家在本周 被定义为流失玩家(定义为最近3周均无进行游戏就是流失),而通过对他们上周时行为指标及属性判断他们100个人都是流失玩家,最终得分如下图: 哇!好高分啊。 可是,其实我们判断的条件很简单,只需要看他在前两周有无进行游戏,如果无则预判为流失玩家 。 其实这也引申出另一个问题
关于此类问题网上有很多解决办法,可以参考如: 机器学习中非均衡数据集的处理方法? 《机器学习实战》:非均衡分类问题(召回率/ROC/AUC/采样方法)
|