[人工智能] 风控中所涉及的重要指标全解析

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 风控中所涉及的重要指标全解析 -> 正文阅读

[人工智能]风控中所涉及的重要指标全解析

今天带各位风控从业者了解一下风控的一些基础概念。
一.贷前相关指标名词：
Badrate
坏人占比

MOB (month on book)
开卡时长

账龄
Vintage分析法是一种动态分析法，用来分析不同时期资产的表现情况，它以贷款的账龄为基础，观察每批放款贷后1,2,3…N个月时的逾期情况。

Roll-Rate
滚动率，分析追溯贷款状态之间每月的迁移情况，展示了每批贷款进入下一个逾期状态的概率。

ENR
应收贷款余额包含剩余本金、当期应收未收的利息及管理费

ANR (last 12)
平均贷款余额(过去十二个月)最近十二个月应收贷款余额的平均值

GCO
总坏账金额包含坏账本金、利息和罚息等；安信认列逾期九十天以上之逾期贷款为坏帳；

Recovery
Recovery坏账回收金额坏账核销后回收的金额

DPD
Day Past Due逾期天数超过还款日仍未还款之数天数

Due day
Due day应还款日到期还款日

IIP
Individual Impairment Provision贷款净损失
总坏账金额－坏账回收金额

PIP
Portfolio Impairment Provision拨备计提

LI
Loan Impairment贷款减值贷款净损失＋拨备计提

GCO%ANR
总贷款损失占平均贷款余额的比率用来观察某一时点，整体资产或某一时段之放款或某一获客渠道或某一产品，其坏帳与过去十二个月之平均贷款余额之比例，使用过去十二个月之放款余额是为免近期新增贷款波动之影响，亦因为小额贷款之坏帳发生高峰期由六个月至十二个月；

IIP%ANR
贷款净损失占平均贷款余额的比率用来观察某一时点，坏帳净损失与过去十二个月之平均贷款余额之比例

PIP%ANR
拨备计提占平均贷款余额的比率用来观察某一时点，拨备计提与过去十二个月之平均贷款余额之比例

LI%ANR
贷款减值占平均贷款余额的比率用来观察某一时点，贷款减值与过去十二个月之平均贷款余额之比例；本指標及上列各与平均贷款余额的比率之指標，连续将六个月数据用线图表示，可观察或预估未未三个月之趋势。

Coincident 30+DPD%
当前逾期30天以上的ENR占当前总ENR的比率本指標以月为时间轴，测量个别或整体之逾放邹势

Diagonal Current to C/O
指从M0流入C/O的比率 c

30DPD/GCO% at 6 MOB
MOB6以内的逾期超过30天或坏账的占比，衡量资产被诈骗的状况；

New Booking
新放款

Booking amount
放款金额

Average loan amount
件均放款金额

Approve Rate
批核率批核案件数/(批核案件数+拒绝案件数)

Cancellation Rate
退单率退单案件数/(批核案件数+拒绝案件数+退单案件数）

Current
当前未逾期正常还款且当期未逾期；Current ～M3 等指標是用作检视资产之逾期状况，亦用作催收工作之目標；

M0
当前未逾期正常还款且当期未逾期

M1
逾期1-29天逾期1-29天之户数或放款余额

M2
逾期30-59天逾期30-59天户数或放款余额

M3
逾期60-89天逾期60-89天户数或放款余额

FPD
First Payment Default首期还款逾期，第一期还款马上逾期，这指標亦会用来评估被诈骗之状况，安信以放款后首两期即逾期及后变为坏帳之案件，认定为被诈骗之案件。

Flow Rate%
转化率，一般指M0流入M1,M1流入M2、M2流入M3以及M3流入WO的比率

二.贷中相关指标名词：
Retained Rate
留存率，实际分为人头留存率和余额留存率

Withdrawal Rate
提现率，额度提现使用的客户占比

Credit Utilization Rate
额度使用率

Reloan Rate
“复借率指标使用场景主要是循环贷产品，表现是客户在完成往期的借款后立刻有借出新贷款，这种情况往往与借旧还新现象挂钩。当某客户长期历史借贷复借率较高时，从策略角度建议分析其多头借贷数、评估当下还款能力，判断是否会在下一笔借贷时发生违约逾期的风险。”

三.贷后相关指标名词：
催收
催收是风控的最终手段。这个环节可以产生很多对模型有帮助的数据。比如催收记录的文字描述、触达率、欺诈标签等等。并且坏账的客户会被列入黑名单。其实只要是能被催回来的，都不是坏账。但是很多公司为了保险起见，逾期超过一定时间的客户，即使被催回来，也会被拉入黑名单。这里主要的算法就是催收模型相关的，可能是监督、无监督算法。也有基于社交网络算法构造的失联模型等等。

CPD
客户逾期天数，与DPD相似。贷后管理的专有名词。历史经验设定逾期金额在50元以上的客户，才有价值通过人工进行催收。所以CPD是指贷后管理中，逾期金额在50元以上的客户的逾期天数。CPD的值取决于最早一期未还清的时间点。

Outbound/Inbound
电话呼出/电话呼入

RPC
Right Public Contact，指有效的联系人，通过电话催收可以找到客户本人或直属亲属。

PTP
Promise To Pay，通过电话催收，客户承诺在一定期限内归还一定数额的欠款，称之为承诺还款。值得注意的是，只有在RPC有效标识之后，才可以有PTP标识。

In_PTP
通过电话催收，客户承诺在一定期限内归还一定数额的欠款。该周期称为P期，一般P期为T+3，In_PTP表示客户是否在P期内，标识为0或1。

V_PTP
有效PTP，即客户承诺还款后，处于在P期内有效未还款的客户。

KP
Kept Promise,K_PTP，客户按照约定还款。

BP
Broken Promise，BP，承诺到期内，客户未按约定还款。

RPC Ratio
联系RPC合同数/接通合同数

PTP Ratio
承诺还款合同数/联系到RPC的合同数

KPTP Ratio
实际还款合同数/承诺还款合同数

四.模型相关
建模的概念
建模就是构造一个数学公式，能将我们手上有的数据输入进去，通过计算得到一些预测出来的结果。比如大家初中/高中学习的线性回归，就是最简单的建模过程。风控模型最原始的思路就是输入一个用户的信息，得到这个人是 “会还钱” 还是 “不会还钱”。这就是个二分类问题。而评分卡模型其实就是希望能将一系列的个人信息输入模型，然后得到一个用户的还款概率。概率越大，评分越高，越容易还钱。概率越小，评分越低，越容易跑路。典型例子就是芝麻信用分。那为什么一定要应射成某种分数呢？
模型里有分数刻度的好处
我们可以随时根据业务需求调整通过率更容易向用户解释他的信用评级更容易向领导解释一个用户被拒绝的原因更容易监控一个模型的效果

Benchmark"
基准。每个版本的新模型都要与一个线上的基准模型或规则集做效果比对"
IV
“information value 信息值。一般取值区间(0,1)。该值用来表示某个变量的预测能力，越大越好。通常IV值0.3以上的，预测能力较高。IV=SUM((B_P-G_P)*LN(B_P/G_P))”

K-S
“klmogrov-smirnov，这是一个区分度指标。所谓区分度，是指模型对于好坏客户的辨识能力，区分力越强，模型准确度越高，误判的几率越低。K-S值越大越好，一般0.6以上用户解释能力很高。KS=Max(RETAIN_BAD_P-RETAIN_GOOD_P)”

PSI
"population stability index，稳定度指标，越低越稳定。用于比较当前客群与模型开发样本客群差异程度，评价模型的效果是否符合预期。

Training Sample
“建模样本，用来训练模型的一组有表现的用户数据。配合该样本还有Validation sample（验证样本），两个样本都取同样的用户维度，通常要使用建模样本训练出的模型在验证样本上进行验证。”
WOE
“weight of ecidence，证据权数，取值区间(-1,1)。违约件占比高于正常件，WOE为负数。绝对值越高，表明该组因子区分好坏客户的能力越强WOE=LN(B_P/G_P)”

Bad Capture Rate
“坏用户捕获率。这是评价模型效果的一个指标，比率越高越好。”

Lift
模型提升度，表示使用模型比未使用的区分效果提升能力

Population
All Population，全体样本用户，包含建模样本与验证样本。

Variable
“变量名。每个模型都依赖许多的基础变量和衍生变量作为入参。变量的命名需要符合规范，易于理解和扩充。”

CORR
“相关系数。Corr的绝对值越接近1，则线性相关程度越高，越接近0，则相关程度越低。”

AUC
“Area Under Curve,定义为ROC曲线下面积，通常大于0.5小于1。体现模型预测精准度指标之一”

GINI
同KS指标一样，都是体现模型区分能力的指标

AR
“Accuracy Rate,AR=2AUC-1，表征模型的区分能力，同Gini指标计算结果一致”

五.其他比较重要名词解析数据采集
数据采集会涉及到埋点和爬虫技术，基本上业内的数据都大同小异。免费的运营商数据、和安卓可爬的手机内部信息（app名称，手机设备信息，部分app内容信息）、以及收费的征信数据、各种信息校验、外部黑名单之类的。还有一些特定场景的现金贷和消费金融会有自有的数据可供使用，比如阿里京东自己的电商数据、滴滴的司机数据、顺丰中通的快递数据等等。由于不涉及爬虫，这一块主要让大家理解一下都可以做些什么变量。
反欺诈相关
反欺诈引擎主要包括两个部分，反欺诈规则和反欺诈模型。这里其实很少使用传统监督模型。涉及到的算法以无监督算法、社交网络算法、深度学习居多。大部分的公司都使用的是反欺诈规则，这也是主要提倡的。一个原因是欺诈标签不好得到，很难做监督学习的训练。还有一个原因是传统的机器学习对欺诈的检测效果很差。因为所谓欺诈，就是一些黑产或者个人将自己包装成信用良好的用户，进行借款后失联或者拒不还钱。既然都伪装成了好客户，基于风控人员主观思考建立的统计模型，又怎么可能有好的效果。但是经过一段时间的实验，这一块其实用深度学习反而有意想不到的效果，基本思想可以理解为，简单评分卡解释性强，带来的坏处就是可以被逆向破解，而复杂模型的黑箱操作虽然解释性差，却有一定的安全性，尤其是搭配了在线学习等动态手段之后。反向破解的成本极高。此外还有很多算法诸如异常检测和知识图谱都在这一块有所应用。
规则引擎
规则引擎其实就是我们常说的策略，主要通过数据分析、挖掘手段以及一些监督、无监督算法，得到不同字段、各个区间的坏账率（badrate），找到最佳分段区间，然后得到筛选后信用较好的一批特定人群进行放款。这一块主要有单变量分析和一些关键指标的计算和监控，比如Rollrate、PSI、KS、AUC，等等。通常规则和模型是组合使用的，尤其在反欺诈场景中。
评分卡
A Card
“Application scorecard 申请评分卡，对授信阶段提交的资料赋值的模型结果规则”

B Card
“Behavior scorecard 行为评分卡，对贷后可以收集到的用户信息进行评分的规则”

C Card
“Collection Scorecard 催收评分卡，对已逾期用户未来出催能力做判断的评分规则”

F Card
“Fraud Scorecard,反欺诈评分卡，常针对申请阶段进行反欺诈用户识别”

风控系统
MIS
Management Information System 管理信息系统

Ser
"service的简写。“.ser” 是决策引擎工具SMG3的工程文件格式，故用 ser代指决策引擎规则版本

"RBP
Risk-based Pricing，风险定价
…
风控指标虽多，但核心的还是在M0、M1、Mn…MOB、Vintage，Badrate等少数的几个核心指标，核心指标不多但难背后的业务逻辑。结合实际的业务去理解这些指标，也是教研组想对大家说的话。

~原创文章
…
end