一、题目背景
kaggle赛题:https://www.kaggle.com/c/ieee-fraud-detection/discussion/101203 从客户的交易行为中,找到欺诈的行为,典型的二分类任务。数据集中坏客户有20000+,好坏样本比例为29:1,数据集有一张副表,表的字段解释:
交易表(transaction表):
TransactionID:主键
TransactionDT:来自给定参考日期时间的timedelta(不是实际时间戳)
TransactionAMT:以美元计算的交易付款金额
ProductCD:产品代码,每笔交易的产品类型
card1 ~ card6:支付卡信息,如卡类型,卡类别,发行银行,国家/地区等。
addr1~add2:支付卡的地址
dist~dist2:距离
P_emaildomain 和 R_emaildomain:购买者和收件人电子邮件域
C1-C14:计数,例如发现与支付卡相关联的地址数等,实际含义被掩盖。
D1-D15:timedelta,时间间隔,例如当前交易和上次交易之间的间隔天数等。
M1-M9:匹配,例如卡片上的姓名和地址等。
Vxxx:Vesta设计了丰富的特征,包括排名,计数和其他实体关系。
类别特征:
ProductCD
card1 - card6
addr1,addr2
P emaildomain R emaildomain
M1 - M9
身份表(identity)表:
TransactionID:主键
该表中的变量是与交易相关的身份信息 - 网络连接信息(IP,ISP,代理等)和数字签名(UA /浏览器/操作系统/版本等)。
它们由Vesta的欺诈保护系统和数字安全合作伙伴收集。
(字段名称被屏蔽,并且不会提供成对字典用于隐私保护和合同协议)
DeviceType 用户使用的设备类型
DeviceInfo 用户使用的设备信息
id 1 ~ id 38 网络连接、数字签名等相关特征
类别特征:
DeviceType
DeviceInfo
id 12 ~ id 38
对于kaggle这样的数据科学比赛一般的流程:
二、反欺诈模型思路
- 目标列Class呈现较大的样本不平衡,会对模型学习造成困扰。样本不平衡常用的解决方法有过采样和欠采样,我们此处处理样本不平衡,可以用过采样,具体操作使用SMOTE(Synthetic Minority Oversampling Technique)。
- 更新ing。。。。。。
Reference
[1] https://www.cnblogs.com/tan2810/p/10594752.html [2] kaggle支付反欺诈:IEEE-CIS Fraud Detection第一名方案复现过程
|