开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 区块链 -> Blockchain is Watching You: Profiling and Deanonymizing Ethereum Users -> 正文阅读

[区块链]Blockchain is Watching You: Profiling and Deanonymizing Ethereum Users

今天给大家讲解的论文是关于构建区块链用户画像的，它的中文题目是《区块链正在注视着你：对以太坊用户进行分析和去匿名化》

??2009年，比特币诞生了。它的诞生带来了一种新的去中心化交易模式。在比特币的交易模式下，交易记录是匿名的，仅以地址来代替账户。人们只能看到地址之间的交易信息，但是无法获取使用者的身份信息，因此用户的隐私性得到了极大的保证。
?? 但是，这种匿名性给国家监管机构带来了极大的不便，比如：洗钱、走私、毒品交易等非法活动在这种匿名交易模式下很难追踪识别。因此，将比特币交易去匿名化是一项非常有必要的。
?? 针对区块链去匿名化问题，今天这篇论文的作者基于以太坊进行了一些探索，并提出了一些新的解决思路。
?? 接下来，我将从以下三个方面进行讲解：相关概念，作者实验方法与结论，对链上数据分析与用户画像构建的思考。

作者实验与结论

?? 本文作者主要做了三个实验：以太坊用户画像与去匿名化、对混币服务进行去匿名化、以太坊上的Danaan-Gift攻击。

实验数据

?? 本文实验数据以ETH地址为基础，来源有三个：Twitter API、Humanity DAO、TC mixer contracts。作者收集到地址之后通过ETH区块浏览器查询交易信息。Humanity DAO可以理解为一种实验，它鼓励参与者进行去中心化的登记与注册；TC mixer contracts

Twitter API提供的数据是ENS names，每个ENS names可以与一个或多个数据关联
Humanity DAO可以理解为一种实验，它鼓励参与者进行去中心化的登记与注册
TC mixer contracts是一个混币合约，多个参与者将等额资金汇入到合约中，构造出一个匿名集

在这里插入图片描述

图9.来自Twitter的ENS names

在这里插入图片描述

图10.三个数据源的平均交易量

评估方法

?? 本文的评估方法有两个，一个是AUC，还有一个是熵增益。

AUC

?? 对于前两个实验，算法会为测试集中的每个账户返回一个候选对的排名列表，每个排名列表里面只有一对是正确匹配的，则AUC可以表示为下式：
$AUC=avg(\frac{r(a)}{|c(a)|})$ over all $a$ , and $r (a)$ is the rank of correct pair.

熵增益

?? 除了衡量匹配的AUC之外，作者还想量化去匿名化匹配带来的隐私损失。在这里，作者巧妙地将攻击者获得的信息表示为熵增益，即先验熵和后验熵的差异。注：先验熵是指没有使用去匿名化方法。对于TC mixer contracts来说，匿名集的大小是动态变化的，因此我们需要首先证明匿名集的大小对于我们比较熵增益是没有影响的。
论证：先验匿名集大小对熵增益没有影响
$\Delta=gain(2n,p)-gain(n,p)$ ，作者在概率分布为p的条件下，对大小为2n和n的匿名集的熵增益做差处理。如果概率分布是平滑的，且在邻域范围内变化很小，那么上述的差值就会很小，就可以近似认为先验匿名集大小对熵增益没有影响。
推断后验概率分布
?? 对于每个大小为 $n$ 、正确匹配对排名为 $r$ 的匿名集，其概率 $P (n, r)$ 在 $[(r ? 1) / n, r / n]$ 均匀分布。后验概率分布就是 $P (n, r)$ 的平均值。注：前面说了算法为每个账户返回候选对列表，其实就是匿名集。
计算熵增益

实验一：以太坊用户画像分析

?? 作者选用恰好有两个地址的ENS names，并挑选三个准标识符：交易时间、汽油费、以太坊交易图位置进行用户画像分析，最后将属于同一用户的账户关联起来。
在这里插入图片描述

图11.两个ENS names的交易画像

?? 在进行交易图分析的时候，本文作者率先采用节点嵌入的方法对同一用户的账户进行匹配识别，并同仅使用其他两个准标识符进行识别的方法进行对比。

在这里插入图片描述

图12.仅使用交易时间的AUC

在这里插入图片描述

图13.仅使用汽油费的AUC

在这里插入图片描述

图14.十二种节点嵌入方法的AUC

在这里插入图片描述

图15.仅使用交易时间的熵增益

在这里插入图片描述

图16.仅使用汽油费的熵增益

在这里插入图片描述

图17.十二种节点嵌入方法的熵增益

方法二：对混币服务进行去匿名化

??在TC mixer contracts的混币服务中，存入地址与赎回地址可能存在重复使用的情况，这会导致隐私方面的风险。于是，作者采用节点嵌入方法进行去匿名化，最终找到存入地址对应的赎回地址。

在这里插入图片描述

图18.给定排名下找到赎回地址的数量

方法三：以太坊上的Danaan-Gift攻击

??作者对以太坊上进行Danaan-Gift攻击做了一个指纹存活概率的分析，说明了在以太坊进行该攻击的可能性。
在这里插入图片描述

区块链去匿名化与用户画像构建思考

地址数量会不知不觉误导你
?? 地址数量是最常见的一个具有误导性的指标，因为并非所有的地址都同等重要。交易创建的一个用于临时性转账的地址，显然不能和另一个长期持有资产的钱包地址相提并论。

匿名性 vs. 可解读性
?? 在区块链数据集中匿名性与可解读性之间的摩擦相对来说还比较小。一个区块链数据集的匿名性越高，从中获取有意义的信息的难度就越大。
在这里插入图片描述
去匿名化 vs. 隐私保护
去匿名化区块链数据集并不涉及了解每个参与者的真实身份。「你是什么」远比「你是谁」要重要。