Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics 论文阅读
零、研究任务
比特币交易的匿名性滋生了很多犯罪(如洗钱),不过比特币交易记录是公开的,研究人员可充分利用这部分信息来判别某笔交易是合法还是非法。即,待完成的任务为二分类任务。
论文原文
一、Elliptic数据集
将原始比特币交易数据构造为图的形式,图中节点代表交易、边代表从一个交易流向另一个交易。若发起交易的实体合法,则交易合法,反之非法。
1.节点特征
每个节点都关联了166个交易相关的特征。
原生特征(94个): 时间步长、入度和出度、交易费、输出量以及衍生统计特征(如相关联交易的平均数量、平均接受/使用的BTC) 聚合特征(72个): 通过从中心节点向后/向前一跳聚合交易信息来获得(邻居相关原生特征的最大、最小、标准差和相关系数等)
2.节点标签
2%的节点为非法交易,21%的节点为合法交易,剩余节点无标签。
3.时间信息
为每个节点打上时间戳(time stamp),代表我们预估出来的这笔交易的开始时间; 引入时间步(time step):共计49个,时间步之间的间隔平均为两周;
每个时间步中包含一个连通分量,时间步与时间步之间无边相连。每个连通分量中包含的节点的时间戳之差不超过三小时。每个时间步包含的节点的类别数量分布如下所示:
上面的图展示了不同时间步下,非法节点数与合法节点数的比值;下面的图展示了不同时间步下,合法、非法、未知节点各自的数量占比。
二、模型
1.Benchmark
逻辑回归、多层感知机(MLP)、随机森林(RF) 这些模型仅使用原生特征进行二分类,没有考虑图结构带来的聚合特征。
2.GCN
使用图卷积网络,将原生特征与聚合特征均考虑进来。
3.Skip-GCN
基于原始GCN进行改进,得到Skip-GCN; 具体实现为:在输入节点特征层与中间嵌入层(intermediate embedding)之间加入一skip层。引入后达到至少与逻辑回归同等效果的程度。
4.EvolveGCN
追加考虑时序信息,改进GCN模型,得到EvolveGCN; 具体实现为:为每个时间步计算一个单独的GCN模型。然后,这些GCNs通过循环神经网络(RNN)连接起来,以捕捉系统动态。
EvolveGCN论文原文 & 源码
三、效果评估
下表中,AF表示全部特征,LF表示前94个特征,NE表示GCN计算得出的node embedding。
由上可知: (1)随机森林表现效果要比GCN、Skip-GCN还要好 (2)特征越多,效果越好 (3)EvolveGCN 比传统GCN效果好
|