论文学习:Heterogeneous Graph Neural Networks for Malicious Account Detection CIKM 2018
现有的恶意账户识别的方法主要有三种:
1)基于规则的方法,通过制定复杂的规则来区分;
2)基于图的方法,这种方法充分考虑了账户之间的关系连接;
3)基于机器学习的方法,使用大量数据来训练策略模型。
一个优秀的策略系统必须能够有效应对不断变化的潜在攻击。攻击者一般会有两个主要的基础特征,
1)设备聚集性,攻击者受限于攻击成本,必然会出现多账号共用设备的情况;
2)活动聚集性,攻击者都是有一定目的的,有限时间内恶意账号的行为与正常账户存在差异。虽然攻击者的弱点已经很明显了,但是要确保高准确、高召回的指标依然是富有挑战性的,特别是在金融风控中。
本文提出的GEM是一种新的基于图的图表示学习方法,通过异构图来综合考虑『设备聚集性』和『活动聚集性』,本质上即是对异构的账户-设备图的拓扑结构进行建模,并考虑到了图结构中账户的行为特征。模型通过注意力机制学习不同设备的权重,不同于其他模型,本文模型会学习一个函数,是一种将账户的上下文拓扑关系和最近的行为特征输入的端到端的方法。模型被实际应用到支付宝系统中,每天可以检测出数万恶意账户。
Data Analysis
首先看一下支付宝真实场景下的『设备聚集性』和『活动聚集性』。
『设备聚集性』:一个账号对应多个设备,或一小撮设备却被一大批账号登录,这些账号都是可疑的。 『行为聚集性』:一批账号有相同的批量行为。
为了预测每天新注册的账号,每天会构建一个包含过去七天账号和设备的图,首先剔除那些没有共用设备的账号,这部分账号是恶意账号的风险较低,剩下数据即是要用到的数据。当然,为了证明模型的有效性,论文使用的是过去一个月的数据,数据的基本情况如下所示。数据被切分为四周,使用前6天的数据作为训练数据,用于预测每周最后的注册账号。数据具有一定敏感性,数据并不会揭示恶意账号和正常账号的比例情况等。特征方面主要是不同类型离散的时间维度上的行为记录共168维和200维账号相关统计特征及6维的设备类型标识特征。
|