今天带各位风控从业者了解一下风控的一些基础概念。 一.贷前相关指标名词: Badrate 坏人占比
MOB (month on book) 开卡时长
账龄 Vintage分析法是一种动态分析法,用来分析不同时期资产的表现情况,它以贷款的账龄为基础,观察每批放 款贷后1,2,3…N个月时的逾期情况。
Roll-Rate 滚动率,分析追溯贷款状态之间每月的迁移情况,展示了每批贷款进入下一个逾期状态的概率。
ENR 应收贷款余额包含剩余本金、当期应收未收的利息及管理费
ANR (last 12) 平均贷款余额(过去十二个月)最近十二个月应收贷款余额的平均值
GCO 总坏账金额包含坏账本金、利息和罚息等;安信认列逾期九十天以上之逾期贷款为坏帳;
Recovery Recovery坏账回收金额坏账核销后回收的金额
DPD Day Past Due逾期天数超过还款日仍未还款之数天数
Due day Due day应还款日到期还款日
IIP Individual Impairment Provision贷款净损失 总坏账金额 -坏账回收金额
PIP Portfolio Impairment Provision拨备计提
LI Loan Impairment贷款减值贷款净损失 +拨备计提
GCO%ANR 总贷款损失占平均贷款余额的比率用来观察某一时点,整体资产或某一时段之放款或某一获客渠道或某一产品,其坏帳与过去十二个月之平均贷款余额之比例,使用过去十二个月之放款余额是为免近期新增贷款波动之影响,亦因为小额贷款之坏帳发生高峰期由六个月至十二个月;
IIP%ANR 贷款净损失占平均贷款余额的比率用来观察某一时点,坏帳净损失与过去十二个月之平均贷款余额之比例
PIP%ANR 拨备计提占平均贷款余额的比率用来观察某一时点,拨备计提与过去十二个月之平均贷款余额之比例
LI%ANR 贷款减值占平均贷款余额的比率用来观察某一时点,贷款减值与过去十二个月之平均贷款余额之比例;本指標及上列各与平均贷款余额的比率之指標,连续将六个月数据用线图表示,可观察或预估未未三个月之趋势。
Coincident 30+DPD% 当前逾期30天以上的ENR占当前总ENR的比率本指標以月为时间轴,测量个别或整体之逾放邹势
Diagonal Current to C/O 指从M0流入C/O的比率 c
30DPD/GCO% at 6 MOB MOB6以内的逾期超过30天或坏账的占比,衡量资产被诈骗的状况;
New Booking 新放款
Booking amount 放款金额
Average loan amount 件均放款金额
Approve Rate 批核率批核案件数/(批核案件数+拒绝案件数)
Cancellation Rate 退单率退单案件数/(批核案件数+拒绝案件数+退单案件数)
Current 当前未逾期正常还款且当期未逾期;Current ~M3 等指標是用作检视资产之逾期状况,亦用作催收工作之目標;
M0 当前未逾期正常还款且当期未逾期
M1 逾期1-29天逾期1-29天之户数或放款余额
M2 逾期30-59天逾期30-59天户数或放款余额
M3 逾期60-89天逾期60-89天户数或放款余额
FPD First Payment Default首期还款逾期,第一期还款马上逾期,这指標亦会用来评估被诈骗之状况,安信以放款后首两期即逾期及后变为坏帳之案件,认定为被诈骗之案件。
Flow Rate% 转化率,一般指M0流入M1,M1流入M2、M2流入M3以及M3流入WO的比率
二.贷中相关指标名词: Retained Rate 留存率,实际分为人头留存率和余额留存率
Withdrawal Rate 提现率,额度提现使用的客户占比
Credit Utilization Rate 额度使用率
Reloan Rate “复借率指标使用场景主要是循环贷产品,表现是客户在完成往期的借款后立刻有借出新贷款,这种情况往往与借旧还新现象挂钩。当某客户长期历史借贷复借率较高时,从策略角度建议分析其多头借贷数、评估当下还款能力,判断是否会在下一笔借贷时发生违约逾期的风险。”
三.贷后相关指标名词: 催收 催收是风控的最终手段。这个环节可以产生很多对模型有帮助的数据。比如催收记录的文字描述、触达率、欺诈 标签等等。并且坏账的客户会被列入黑名单。其实只要是能被催回来的,都不是坏账。但是很多公司为了保险起 见,逾期超过一定时间的客户,即使被催回来,也会被拉入黑名单。这里主要的算法就是催收模型相关的,可能 是监督、无监督算法。也有基于社交网络算法构造的失联模型等等。
CPD 客户逾期天数,与DPD相似。贷后管理的专有名词。历史经验设定逾期金额在50元以上的客户,才有价值通过人工进行催收。所以CPD是指贷后管理中,逾期金额在50元以上的客户的逾期天数。CPD的值取决于最早一期未还清的时间点。
Outbound/Inbound 电话呼出/电话呼入
RPC Right Public Contact,指有效的联系人,通过电话催收可以找到客户本人或直属亲属。
PTP Promise To Pay,通过电话催收,客户承诺在一定期限内归还一定数额的欠款,称之为承诺还款。值得注意的是,只有在RPC有效标识之后,才可以有PTP标识。
In_PTP 通过电话催收,客户承诺在一定期限内归还一定数额的欠款。该周期称为P期,一般P期为T+3,In_PTP表示客户是否在P期内,标识为0或1。
V_PTP 有效PTP,即客户承诺还款后,处于在P期内有效未还款的客户。
KP Kept Promise,K_PTP,客户按照约定还款。
BP Broken Promise,BP,承诺到期内,客户未按约定还款。
RPC Ratio 联系RPC合同数/接通合同数
PTP Ratio 承诺还款合同数/联系到RPC的合同数
KPTP Ratio 实际还款合同数/承诺还款合同数
四.模型相关 建模的概念 建模就是构造一个数学公式,能将我们手上有的数据输入进去,通过计算得到一些预测出来的结果。 比如大家初中/高中学习的线性回归,就是最简单的建模过程。 风控模型最原始的思路就是输入一个用户的信息,得到这个人是 “会还钱” 还是 “不会还钱”。这就是个二分类问 题。 而评分卡模型其实就是希望能将一系列的个人信息输入模型,然后得到一个用户的还款概率。概率越大,评分越 高,越容易还钱。概率越小,评分越低,越容易跑路。典型例子就是芝麻信用分。 那为什么一定要应射成某种分数呢? 模型里有分数刻度的好处 我们可以随时根据业务需求调整通过率 更容易向用户解释他的信用评级 更容易向领导解释一个用户被拒绝的原因 更容易监控一个模型的效果
Benchmark" 基准。每个版本的新模型都要与一个线上的基准模型或规则集做效果比对" IV “information value 信息值。一般取值区间(0,1)。该值用来表示某个变量的预测能力,越大越好。通常IV值0.3以上的,预测能力较高。IV=SUM((B_P-G_P)*LN(B_P/G_P))”
K-S “klmogrov-smirnov,这是一个区分度指标。所谓区分度,是指模型对于好坏客户的辨识能力,区分力越强,模型准确度越高,误判的几率越低。K-S值越大越好,一般0.6以上用户解释能力很高。KS=Max(RETAIN_BAD_P-RETAIN_GOOD_P)”
PSI "population stability index,稳定度指标,越低越稳定。用于比较当前客群与模型开发样本客群差异程度,评价模型的效果是否符合预期。
Training Sample “建模样本,用来训练模型的一组有表现的用户数据。配合该样本还有Validation sample(验证样本),两个样本都取同样的用户维度,通常要使用建模样本训练出的模型在验证样本上进行验证。” WOE “weight of ecidence,证据权数,取值区间(-1,1)。违约件占比高于正常件,WOE为负数。绝对值越高,表明该组因子区分好坏客户的能力越强WOE=LN(B_P/G_P)”
Bad Capture Rate “坏用户捕获率。这是评价模型效果的一个指标,比率越高越好。”
Lift 模型提升度,表示使用模型比未使用的区分效果提升能力
Population All Population,全体样本用户,包含建模样本与验证样本。
Variable “变量名。每个模型都依赖许多的基础变量和衍生变量作为入参。变量的命名需要符合规范,易于理解和扩充。”
CORR “相关系数。Corr的绝对值越接近1,则线性相关程度越高,越接近0,则相关程度越低。”
AUC “Area Under Curve,定义为ROC曲线下面积,通常大于0.5小于1。体现模型预测精准度指标之一”
GINI 同KS指标一样,都是体现模型区分能力的指标
AR “Accuracy Rate,AR=2AUC-1,表征模型的区分能力,同Gini指标计算结果一致”
五.其他比较重要名词解析数据采集 数据采集会涉及到埋点和爬虫技术,基本上业内的数据都大同小异。免费的运营商数据、和安卓可爬的手机内部 信息(app名称,手机设备信息,部分app内容信息)、以及收费的征信数据、各种信息校验、外部黑名单之类 的。还有一些特定场景的现金贷和消费金融会有自有的数据可供使用,比如阿里京东自己的电商数据、滴滴的司 机数据、顺丰中通的快递数据等等。由于不涉及爬虫,这一块主要让大家理解一下都可以做些什么变量。 反欺诈相关 反欺诈引擎主要包括两个部分,反欺诈规则和反欺诈模型。这里其实很少使用传统监督模型。涉及到的算法以无 监督算法、社交网络算法、深度学习居多。大部分的公司都使用的是反欺诈规则,这也是主要提倡的。一个原因 是欺诈标签不好得到,很难做监督学习的训练。还有一个原因是传统的机器学习对欺诈的检测效果很差。因为所 谓欺诈,就是一些黑产或者个人将自己包装成信用良好的用户,进行借款后失联或者拒不还钱。既然都伪装成了 好客户,基于风控人员主观思考建立的统计模型,又怎么可能有好的效果。但是经过一段时间的实验,这一块其 实用深度学习反而有意想不到的效果,基本思想可以理解为,简单评分卡解释性强,带来的坏处就是可以被逆向 破解,而复杂模型的黑箱操作虽然解释性差,却有一定的安全性,尤其是搭配了在线学习等动态手段之后。反向 破解的成本极高。此外还有很多算法诸如异常检测和知识图谱都在这一块有所应用。 规则引擎 规则引擎其实就是我们常说的策略,主要通过数据分析、挖掘手段以及一些监督、无监督算法,得到不同字段、 各个区间的坏账率(badrate),找到最佳分段区间,然后得到筛选后信用较好的一批特定人群进行放款。这一块 主要有单变量分析和一些关键指标的计算和监控,比如Rollrate、PSI、KS、AUC,等等。通常规则和模型是组 合使用的,尤其在反欺诈场景中。 评分卡 A Card “Application scorecard 申请评分卡,对授信阶段提交的资料赋值的模型结果规则”
B Card “Behavior scorecard 行为评分卡,对贷后可以收集到的用户信息进行评分的规则”
C Card “Collection Scorecard 催收评分卡,对已逾期用户未来出催能力做判断的评分规则”
F Card “Fraud Scorecard,反欺诈评分卡,常针对申请阶段进行反欺诈用户识别”
风控系统 MIS Management Information System 管理信息系统
Ser "service的简写。“.ser” 是决策引擎工具SMG3的工程文件格式,故用 ser代指决策引擎规则版本
"RBP Risk-based Pricing,风险定价 … 风控指标虽多,但核心的还是在M0、M1、Mn…MOB、Vintage,Badrate等少数的几个核心指标,核心指标不多但难背后的业务逻辑。结合实际的业务去理解这些指标,也是教研组想对大家说的话。
~原创文章 … end
|