序言: 外部数据源作为金融机构判客群风险最重要的征信维度,其作用不需多言,在信贷行业最风控的时候,某家机构公司数据成本占比居高不下,甚至是成本中较重的支出,比如在某集团公司里就会接入以下这些数据源: (历史数据维度,现有变动仅供参考)
但很明显随着断直连跟个人信息保护法的一系列政策强监管,数据的获取跟使用也势必越来越合规,当下对于各家机构其外部的数据源还能如何运用,评估外部数据源的维度相较以往还是否有所改变。 今天我们综合了星球同学的一些需求,给大家梳理了这样一篇关于外部数据的使用的文章,希望对所有的风控人员在数据的使用上都有所启发。
并且,在文章中我们会跟大家介绍目前大家最关注的百行征信。他们家的机构又有哪些特点,在运用百行征信数据上又有哪些问题需要注意,请看今日文章介绍。
因为完整内容较长,本次整体的内容将分成四大部分跟大家介绍,整体目录如下: part1.外部数据的构成和分类 Part 2.外部数据的评估流程 PART 3.外部数据在决策流的上线及监控 PART 4.百行个人征信报告的应用 此外关于三方数据的测试,在知识星球中更会手把手讲解具体的实操内容,包括数据展示(excel)、数据案例跟代码(python),基本一看就懂,一跑就会。
PART 1.外部数据的构成和分类 随着国家对数据的监管越来越严格,信贷机构的自有数据已经无法满足风控的需要,尤其对于新客来说,机构只能采集到个人的设备和通讯录信息,且需要用户主动授权才能获取。所以目前信贷机构都非常依赖外部的第三方数据,那对于外部数据的选取,评估,应用就显得尤为重要。 相比于几年前盛行的爬虫类数据,现在的外部数据更加注重合规性和个人隐私保护,很多三方公司通常不会输出个人的明细类数据,而是以模型分,特征脱敏加工等形式输出。据我们了解,目前市面上常见的外部数据包括以下几类: 1)黑名单类:主要是逾期黑名单和欺诈类名单 2)多头共债类:一般以指标形式输出,通过对时间窗口,申请平台类型等维度交叉衍生成 3)电商消费类:一般以模型分的形式输出,少数机构会输出消费类的衍生指标 4)支付类:一般以模型分的形式输出,少数机构会输出支付类的衍生指标 5)信用风险类:包括逾期,还款类的指标,信用分,欺诈分等。 6)数据校验类:三要素校验,手机号码状态校验,在网状态校验等。 7)运营商类:包括用户的通信消费情况,还有根据流量使用生成的偏好标签 8)行为类:常见的有用户在各类app上的使用行为 以上这些数据第三方平台是怎么获取到的呢?这里例举一些常见的获取途径: 1.第三方征信:通过获取信贷平台的贷前,贷后等记录,提取多头共债,逾期还款特征。另外像百行征信这种持牌机构的数据来源则是信贷平台向其提报的征信记录。 2.短信通道:有些机构会通过用户的短信内容,从中提取借款,逾期,催收等特征。 3.支付通道:跟支付公司合作,通过支付记录来提取用户的消费,收入的数据。 4.手机输入内容:输入法软件会记录用户的输入内容,从中可以提取个人偏好等标签。
PART 2.外部数据的评估流程 外部数据的应用可概括为以下几个步骤: ①确定接入三方的目的 ②了解三方的产品构成 ③向三方沟通测试的产品和测试的样本数量 ④准备样本让三方回溯数据 ⑤测试三方数据的效果 ⑥反馈给商务进行产品报价 ⑦接入三方 ⑧三方上线陪跑 ⑨正式启用三方 ⑩三方数据监控 其中的重点在于线下数据的评估和接入后的数据监控,下面会针对这两部分详细阐述下: 在评估前要先确定接入三方的目的,不同的目的对于数据选择及评估角度都会不一样,常见的目的有以下这些: 1)用于优化贷前贷中的风控策略,这种会优先考虑接入信贷类指标,黑名单或者模型分 2)用于做风险定价或者额度策略,会考虑接入能反映收入负债情况的数据 3)用于优化现有模型或者用外部数据单独做个定制模型,这种一般要接指标类的数据 确定目的后寻找合适的数据服务商,并了解对方的产品构成,数据获取途径,产品报价等,获取的途径可以反映数据的真实性和有效性,产品报价则关系到风控调用数据的成本。这些了解后就要准备测试的样本,由于调用外部数据需要成本,所以测试的样本是有限的,一般三方机构免费的测试量级在5000-30000之间,所以在准备样本时会考虑以下几点: 1)样本要代表测试的客群,例如目的是对新客策略做优化,且针对的是某个大渠道的用户,则要选取这个渠道的新客样本。 2)选取的样本中客群的稳定性,没有处于特殊的时间段,例如逾期潮,产品刚上线阶段,策略重大变动阶段等,这个稳定也可以体现在时间维度上badrate的变化。如果客群一直不太稳定,则尽量选择近段时间的样本。 3)样本在时间维度上的连续性,可以评估数据在时间上分布及效果的稳定程度。 4)样本是否需要抽样,如果三方机构免费测试量比较少,会考虑进行抽样,常见的有随机抽样和分层抽样,分层抽样适用于badrate较低的样本,这种情况会对好用户进行欠采样来提高坏用户的占比。不过分层抽样后建模会有badrate失真的影响。最好的情况下是做随机抽样或者不抽样,这样评估的结果更趋近于真实情况。
数据评估的角度要根据接入目的和数据类型出发,这里先列一下常见的评估角度,再结合具体情况来说明: 根据接入目的出发,如果是用来做拒绝策略,则评估时更关注指标/模型分尾部的lift表现,以及尾部lift在时间维度上是否稳定。如果用来做风险定价和额度策略,则更关注整体的一个排序性表现,对好坏用户都要有好的区分能力。如果用来做模型,则关注外部数据对已有模型的增量效果,或者外部数据本身的一个区分能力。 根据接入数据的类型来考虑,黑名单类关注命中样本的精确率,精确率要尽量高。评分类要考量查得率,区分能力,稳定性等,另外也要考虑价格。现在很多三方机构会根据数据类型,客群类型的交叉生成很多的模型分,例如根据多头,设备,电商,社交这4类数据生成“多头+设备分”, “ 社交+电商分”,“多头+设备+电商分”…,数据类型用的越多,价格越贵,这时候选择一个性价比高的评分产品就很重要。对于指标类的产品,通常会看尾部的lift来反映拒绝的精准度,业务上的可解释性也会考虑。
另外对于评分类的产品,或者根据指标类数据做的定制模型分。如果评估后效果还不错,我们还会考虑这个模型分跟已接入三方模型分的相关性,这个相关性体现在: 1)业务角度:根据模型分底层用的数据,例如新接的模型分A用的是支付类数据,已上线的模型分B也是支付类,那两者存在一定的相似度,如果接的都是同一家支付公司,那相似度就更大了,这种情况考虑选择其中一个即可。 2)统计角度:即计算两者之间的皮尔逊相关系数,根据经验,系数绝对值在0-0.2之间是极弱相关,0.2-0.4为弱相关,0.4-0.6是中等程度相关,0.6-0.8是强相关,0.8-1是极强相关。如果两个模型分的相关系数很高,则说明他们对于决策的作用是重叠的,要考虑舍弃其中一个来降低数据调用成本。
PART 3.外部数据在决策流的上线及监控 针对串行式决策流,要考虑接的数据放在哪个决策节点,一般是根据效果和价格综合考虑。如果本身数据调用成本就比较高了,则更考虑价格,价格高的话可以放在下游节点来降低调用成本。如果更看重效果,则效果比较好的话建议放在上游节点,因为上游调用的用户多,这样做可以提高整体风控的精准度。 数据上线后建议先空跑个一两天,观察调用接口的稳定性和空跑出的模型分分布是否符合预期。正式启用后需要做监控来观察实际的线上效果。监控包括: 1.前期监控(上线初期无贷后表现): 1)数据的查得率,是否和线下测试时一致。 2)数据分布的稳定性,可根据规则拒绝率和PSI来衡量。 3)上线前订单通过率VS上线后订单通过率,衡量数据上线后对风控通过率的影响。
2.后期监控(有贷后表现): 1)线下评估结果与线上真实效果的比对,观察通过样本尾部的lift表现是否一致。 2)当有了一段时间的贷后样本时,可分析数据线上真实效果的稳定性,例如模型分的KS是否出现随时间变化有下滑趋势。 3)上线前整体坏账表现VS上线后整体坏账表现,评估数据对于降低坏账的真实效果。
PART 4.百行个人征信报告的应用 在目前征信业务合规化的背景下,百行征信作为一家持牌的征信公司,很多信贷机构都在陆续接入使用它的数据,下面简单介绍下百行个人征信报告在风控中的应用。 本次关于百行征信的内容,我们会将相关的数据分为:
简版跟明细版跟大家介绍
其中简版内容包括: ①个人基本信息 ②居住信息 ③工作信息 ④信贷信息 这四个模块
明细版本包括:
①个人基础信息
②居住信息
③工作信息 ④指标类的信贷信息 ⑤明细类的指标信息 这五个模块
在以上的内容中,除了会详细介绍百行征信的组成部分外,还会详细介绍每个模块的详细细则与具体的指标加工信息,另外涉及大的百行的应用与目前存在的问题都会分别跟大家进行介绍。
以上详细内容,未完待续… 各位同学可以提前到知识星球平台了解剩余内容。 另外关于本次三方数据的测试,我们更会将整体内容以文件包(数据集+代码)同步到知识星球平台,跟大家进行具体的实操演示。
~原创文章 … end
|