用机器学习和图分析识别比特币洗钱行为

区块链分析商Elliptic与IBM和MIT一起,发布了一个20万条交易的 用来检测非法交易的数据集,对这一数据集的分析结果被整理 为一篇令人兴奋的论文,它指出了可以分析此类数据的方法,以及 可能存在的限制。

区块链分析企业Elliptic发布了一个用于研究目的的数据集,其中包含 了超过20万条交易。该公司与IBM和MIT一起发表了一篇论文,阐述并 比较了他们用于评估这些数据的几种方法。论文令人激动,深入使用了 机器学习和图分析技术,但同时也不失合理合法性,并且容易理解。

为什么分析区块链数据?

学编程,上汇智网,在线编程环境,一对一助教指导。

令人感兴趣的一点是看Elliptic如何捍卫这一项目。基本上,收集、 评估数据的企业和个人常常会面临巨大的压力,例如隐私侵犯等方面 的抗议。最终Elliptic实际上是打破了用户的隐私,因为它要调查的 是哪些交易是合法或非法的。然而,在其论文中,Elliptic以及其他 研究机构提供了一个有趣的解释。

对于第三世界的很多人来说,银行是非常昂贵或者根本用不起的服务。 论文指出,这一问题也是由于反洗钱法规日益严格而导致的。虽然 这些法规对于金融系统的安全很有必要,它同时也对低收入人群、 移民和难民带来负面的影响。反洗钱法规增加了企业合法运营的成本, 也增加了企业因不合规操作而收到惩罚的风险,因此对银行而言不再 值得为那些没钱的客户承担风险。

论文中提到百亿规模的毒品集团、人口走私和在世界范围造成大规模 伤害的恐怖组织,引用了几个严重的大银行参与的洗钱丑闻,而这些 洗钱行为造成的巨额损失最终还是由纳税者买单。洗钱并不是一种无 受害人的犯罪行为,然而金融体系里现在使用的方法并不能很好地阻止 洗钱的发生。在Elliptic看来,区块链提供了一个改善的机会 —— 通过 降低反洗钱措施的成本,从而提高银行服务的可获取性。

然而,比特币的名声并不好,因为其伪匿名的特点,比特币经常被罪犯 使用,这反过来也使得使用数字货币的企业很难做到合规。在FinCEN最近 针对加密货币启用了银行保密法案(Bank Secrecy Act)之后,金融业界 在等待更猛烈的整顿。

例如,企业被要求”进行个体风险评估以在早期阶段识别洗钱、恐怖分子 资助及其他金融犯罪“。这些评估基于大量的数据,例如用户档案、地理 来源以及所提供的产品和服务。除了强化客户识别(KYC),BSA也要求 企业”充分了解其客户以便决定其风险“。到底怎么才算”充分了解“是一个 非常有争议的话题。在实践中,论文谈到,这意味着”不仅要了解你的客户, 还要了解你的客户的客户”。这并不容易,因为比特币交易虽然透明,但它是 伪匿名的。

像Elliptic这样的区块链分析企业针对此问题提出了解决方案AML,该方案 的核心就在于利用了区块链数据的公开可用性,主要的问题在于针对比特币的 解决方案会比针对法币的方案便宜吗?面对日益成山的区块链数据,分析 公司能不能高效、可靠地识别出来一个存在风险的交易?

Elliptic如何利用区块链数据集

为了解答这些问题,Elliptic现在发布了一个比特币交易的数据集。数据集 即包含合法实体的交易,例如交易所、矿工、钱包及其他服务,也包含非法 的交易,例如诈骗、勒索软件、恐怖组织、暗网市场等等。

利用区块链的原始数据,Elliptic构建了一个图(Graph),节点表示交易, 边表示比特币从一个交易流向另一个交易。该数据采用166种特征加以丰富。 其中包含关于交易的本地信息 - 例如时间、交易输入输出数量、手续费、 流量等等 - 也包含了在更广泛的上下文中的聚合信息,例如与相邻交易的 相关性。

600MB的数据集可以免费下载,其中包含203769个交易和234355条边,对于 区块链来说,这个数据集很小,它仅仅覆盖了大约半天的交易量。比特币 区块链自己就包含了4.38亿这样的节点和11亿条边,对应完整区块链的这样 一个数据集大概需要2个TB甚至更多。

一个交易是不是合法,这个问题是通过启发式算法解答的。例如:”较多的交易 输入以及同一地址的复用和更强的地址聚簇有关联,这意味着交易签名实体 匿名性的损失,但同时,在一个交易中合并不同地址有利于降低交易成本“。 结果就是,那些对匿名性不太关注的实体很可能就是合法的,而非法实体更 喜欢使用较少的交易输入来避免破坏匿名性。

获取交易特征的另一个问题和区块链的数据量大小有关,目前比特币区块链大概 有200G的压缩数据,大约4亿交易。“即使该研究不使用所有的交易,也有必要利用 完整的区块链来了解彩玉特定交易的钱包地址的完整历史”,因此Elliptic使用了 “可以在内存中HOLD住全部数据的高性能的图引擎来计算交易特征”。为了快速 计算特征,你可能需要一个相当强大的服务器,还需要非常非常多的内存。

用机器学习进行分析

Elliptic及其合作伙伴的研究目的是降低风险检测的误报率。在银行业中, 高误报率 - 比如高达90% — 通常是可以容忍的。因此识别出来的风险交易很可能 来自诚实的公民而非犯罪分子,这也是为什么AML合规如此昂贵的一个原因 - 银行最终需要手工甄别是不是真的犯罪。

Elliptic以及其他研究方利用已发布的数据集,目前正在测试几种方法来决定 哪一种更适合用来识别比特币交易伴随的风险。目前有2%的交易识别为非法, 21%的交易识别为合法,研究者的工作现在就是继续评估剩下的未分类交易。 如果我理解正确的话,Elliptic应该是基于区块链之外的数据,以及知道了 哪些交易是合法的,因此才能够评估风险检测算法的效果。不过对此我并 不确定。

使用机器学习,一个计算机程序可以首先检查已经被正确分类的交易的特征, 以便找出哪些特征预示一个交易是非法的,这就是训练过程。然后得到的模型 可以用来检测其他交易。有多种技术手段可以用于机器学习,例如逻辑回归 和随机森林方法在银行业反洗钱算法中常用,这两种方法通常一起使用因为 随机森林更准确,而逻辑回归则提供了更好的解释性。另一种方法时多层感知器 神经网络,它可以提供概率化的判断。

将机器学习与图分析方法相结合,这一途径的主要问题在于通常扩展性都很差, 难以投入实用。因此,研究者尝试了一些方法。一方面,他们构造了“图卷积网络”, 可以提前聚合数据。然后他们把这些数据与时序过程关联以捕捉演化的动态。

因此有四种基本的方法来评估数据集:逻辑回归、随机森林、多层感知器和 图卷积网络。你可以把交易特征输入这些方法,或者加以组合。研究者总共 尝试了14种方法来判断哪种方法可以最准确地预测交易是合法还是非法。

虽然看起来识别比特币的非法交易比传统银行业可靠的多,在方法方面还是有 很大的改进空间。持续增长的区块链 —— 这通常是节点运营者的问题 —— 也 成为区块链分析人员的问题。因为每个交易都可能链接到任何区块链的其他交易。


原文链接:Analyzing Money Laundering on the Bitcoin Blockchain

汇智网翻译整理,转载请标明出处