譯者前言:比特幣等區塊鏈應用的初衷是為實現惠普金融目的,然而,犯罪分子的使用卻為它們帶來了壞名聲,這也凸顯出了反洗錢工作的重要性,對此,MIT、IBM以及區塊鏈分析公司Elliptic的研究者聯合推出了一些檢測非法區塊鏈交易的方法,其還提供了一個包含20多萬筆標記比特幣交易的數據集,其中只有少數交易被歸類為非法交易。
以下為論文譯文:
比特幣的反洗錢研究:運用圖卷積網絡進行金融鑒證
作者:
摘要
反洗錢監管在保障金融體系方面發揮著關鍵作用,但同時也使得金融機構承擔了高昂的成本,并促使那些處于社會經濟和國際邊緣的金融被排除在外。而加密貨幣的出現,帶來了一個有趣的悖論:假名允許罪犯隱藏于顯而易見的地方,而開放的數據則賦予了調查人員更多的權力,并使法庭分析的眾包成為可能。同時,學習演算法的發展也大大助推了AML工具包。在本次研討會中,我們提供了Elliptic數據集,一個超過20萬筆比特幣交易及23.4萬條定向支付流的時間序列圖,其擁有166個節點特征,包括基于非公開數據的特征。
據我們所知,這是目前與加密貨幣相關的最大的標記交易數據集。我們分享了使用邏輯斯蒂回歸算法、隨機森林算法、多層認知器演算法以及圖卷積網絡算法的變體來預測非法交易的二元分類任務結果。
其中圖卷積網絡作為一種新興的獲取關系信息的方法,其具有特殊的意義。
結果表明了隨機森林算法的優越性,同時也展示出了結合隨機森林算法和圖卷積網絡方法各自能力的可能。
最后,我們考慮到,由于現實交易圖的大小及動態性方面的因素,可視化分析和解釋是很難實現的,我們為此提供了一個簡單的原型,其能夠確定圖形,并觀察模型在檢測非法活動方面的表現。
有了這些方法和數據集,我們希望邀請反饋來支持我們正在進行的調查,激勵他人努力應對這一重要挑戰。
關鍵詞
圖卷積網絡、異常檢測、金融取證、加密貨幣、反洗錢、可視化。
一、反洗錢與惠普金融的沖突
“貧窮的代價是昂貴的,”這是惠普金融倡導者的共同信條。它說明了這樣一個事實:那些處于社會邊緣的人在進入金融體系方面受到了限制,參與的相對成本也較高。限制訪問的問題,在某種程度上是越來越嚴格的反洗錢法規帶來的意外結果,雖然反洗錢對保護金融體系至關重要,但卻對低收入者、移民和難民產生了不成比例的負面影響。而全球大約有17億成年人處于無銀行賬戶的狀態。
相對成本較高的問題,在一定程度上也是反洗錢政策的特性造成的,該政策在貨幣服務業務上強制執行較高的固定合規成本,而“低價值”客戶根本不值得這些業務冒這個風險。
以全球中低收入國家的匯款為例,它們在2018年進行的匯款活動達到了5290億美元,創下了歷史新高,遠遠超過全球1530億美元的援助捐款。
而目前人們發送200美元,平均的匯款費用率是昂貴的7個點,有些國家的費率甚至超過了10%。而聯合國可持續發展目標是在2030年降低至3%。
盡管問題普遍存在著,反洗錢監管卻不能因為負擔過重的原因而被草率駁回。原因是,諸多非法產業,如販集團、人口販運和恐怖組織,在世界各地造成了眾多人類悲劇。最近發生的馬來西亞發展有限公司洗錢丑聞,奪走了馬來西亞人民用于國家發展的110多億美元納稅人資金,這起事件也牽連了高盛等組織,涉及到巨額罰款和刑事起訴。愛沙尼亞最近發生的丹斯克銀行洗錢丑聞,曾是俄羅斯和阿塞拜疆約2000億美元非法資金流入的中心,其同樣給這些國家的無辜公民造成了不可估量的損失,而受其牽連的機構,如丹麥銀行和德意志銀行,因此而損失數十億美元。
洗錢并不是一種無受害人的犯罪,而目前傳統金融體系的方法在制止洗錢方面卻做得很差。
1、1加密貨幣世界的反洗錢
由比特幣網絡所引入的加密貨幣,引發了技術與企業對支付處理興趣的爆發。
以太坊基金會宣布以太坊及區塊鏈相關領域學術研究資助計劃:3月1日消息,以太坊基金會生態系統支持團隊(EF Ecosystem Support Program)宣布了一項規模達 75 萬美元的學術研究資助計劃,希望推動對以太坊、區塊鏈、密碼學、零知識證明等相關領域的學術研究,資助申請截止日期為 2022 年 4 月 22 日。[2022/3/1 13:30:34]
在世界各地,貨幣轉移類創業公司開始與傳統銀行和諸如西聯等貨幣服務業務競爭。
他們專注于使用比特幣和其他加密貨幣作為“軌道”,以實現低成本、點對點的跨境資金轉移。
很多人明確指向了匯款目標,并支持惠普金融事業。
與這些企業家一起成長的,還有來自學術界的學者,以及支持更新加密貨幣監管政策的倡導者團體。
然而,抑制這種令人興奮應用的,卻是比特幣的壞名聲。
很多犯罪分子利用比特幣的假名特性隱藏在人們的視線中,然后進行勒索軟件攻擊,并經營暗網市場,以交換非法商品和服務。
2019年5月,美國金融犯罪執法網絡發布了關于1970年《銀行保密法》如何適用于加密貨幣,這也被稱為可轉換虛擬貨幣指南。
與《銀行保密法》一致,該指南要求貨幣服務業務生成衡量洗錢、恐怖主義金融和其他金融犯罪的風險評估。這些評估基于客戶構成、服務地區和提供的金融產品或服務。
評估必須告知客戶關系的管理層,包括實施與風險相稱的控制措施。換言之,貨幣服務業務不僅必須報告可疑賬戶,而且必須對它們采取行動。該指南將“完善的風險評估”定義為“協助最高管理層識別并提供其個人風險狀況的綜合分析”。該指南強化了BSA的“了解你的客戶”要求,其要求MSB對其服務的客戶有足夠的了解,以便能夠確定他們向機構陳述的風險水平。
對客戶“足夠了解”,到底是指到什么樣的程度,這是合規與政策圈爭論不休的話題。在實踐中,其中最具挑戰性的一個方面是一個隱含但有效執行的要求,即不僅要了解客戶,還要了解客戶的客戶。在傳統金融零散的數據生態系統中,這方面的合規性通常是通過MSB之間的通話來執行的。但在比特幣的開放系統中,整個圖形交易網絡數據是公開的,盡管這是以假名和無標記的形式而存在。
為了迎接這一公開式數據帶來的機遇,加密貨幣情報公司應運而生,它們為加密貨幣領域提供量身定制的反洗錢解決方案。雖然比特幣的假名特性對于犯罪分子而言是一種可利用的優勢,但公開數據的特性,也同樣是調查人員的關鍵優勢。
二、ELLIPTIC數據集
Elliptic是一家加密貨幣情報公司,其致力于保護加密貨幣生態系統免受犯罪活動的影響。作為對研究社區的貢獻,我們給出了Elliptic比特幣交易圖形網絡數據集,并同意公開分享該數據集。據我們所知,它是與加密貨幣相關最大的標記交易數據集。
2、1圖形構造
該Elliptic數據集,將比特幣交易映射到屬于合法類別的真實實體,以及非法實體。根據原始比特幣數據,構造并標記一個圖,其中節點表示交易,邊緣表示比特幣從一筆交易流向下一筆交易。
如果發起交易的實體屬于合法實體,則將給定交易視為合法類別,反之則判為非法類別。重要的是,所有的功能都是使用公共信息構建的。
2.1.1節點和邊緣:有203,769筆節點交易以及234,355條定向邊緣支付流。而在當前整個比特幣網絡,使用相同的圖形表示,那么整個BTC網絡大約有4.38億個節點,以及11億條邊。在Elliptic數據集當中,約有2%的交易被標記為非法,有21%的交易被標記為合法,其余的交易沒有被貼上合法或非法的標簽,而是具有其他的特征。
2.1.2特征:每個節點都關聯了166個特征,其中前94個特征表示有關交易的原生信息,包括時間步長、輸入/輸出數、交易費、輸出量以及合計數字的平均BTC和與輸入/輸出相關聯的傳入交易的平均數量)。其余的72個特征稱為聚合特征,通過從中心節點向后/向前一跳聚合交易信息來獲得的相鄰交易的最大、最小、標準差和相關系數)。
科學家學術論文描述針對以太坊PoS鏈的3種攻擊方法:10月31日消息,來自斯坦福大學和以太坊基金會的計算機科學家Caspar Schwarz-Schilling、Joachim Neu、Barnabé Monnot、Aditya Asgaonkar、Ertem Nusret Tas、David Tse最近撰寫一份新白皮書,描述了針對以太坊PoS(權益證明)鏈的3種攻擊方法。該白皮書揭示了最近出現的兩次以太坊網絡攻擊,并且該論文的作者改進了這些技術。
除了前兩種方法(理論上會造成“短程重組”和“對抗性網絡延遲”)的改進之外,計算機科學家還提出了第三種攻擊。“結合兩種改進的攻擊技術,我們獲得了第三種攻擊,它允許擁有極少權益(stake)且無法控制網絡消息傳播的對手進行甚至是遠程(long-range)共識鏈重組。”作者們補充說,“誠實但理性或有意識形態動機的驗證者可以利用這種攻擊來增加他們的利潤或阻塞協議,從而威脅到PoS Ethereum的激勵一致性和安全性。該攻擊還可能導致投票處理擁堵導致共識不穩定。”
同時,以太坊網絡批評者使用這篇論文強調當網絡過渡到完整的PoS系統時與這些攻擊相關的潛在漏洞。Chia創始人、Bittorrent創建者Bram Cohen發布關于這項新研究的推文。Chia支持者回應稱,“讓我們在一年后重溫你的推文,看看Chia與ETH相比取得了什么成就。請考慮你的態度,正在拒絕像我這樣的社區成員。”
該論文的作者總結道,“我們的攻擊也使得可能出于意識形態動機的先天性惡意行為者推遲并在某些情況下徹底拖延達成共識的決定。第4.2節的改進攻擊為攻擊者提供了一種工具來做到這一點,即使攻擊者無法控制消息傳播延遲(這被認為是概率性的)。”(Bitcoin.com)[2021/10/31 6:23:20]
圖1:數據集中不同時間步長,非法節點與合法節點的比例。節點數與時間步長
2.1.3時間信息:時間戳與每個節點相關聯,表示比特幣網絡確認交易時的估計時間。共有49個不同的時間步長,平均間隔約為兩周。每個時間步長包含在區塊鏈上出現的、彼此之間不到三小時的交易單個連接組件;沒有連接不同時間步長的邊。
很明顯,特定時間步長中的節點彼此關聯的時間戳非常接近,因此可有效地將它們中的每一個視為時間上的即時“快照”。每個時間步長的節點數隨時間的推移是相當均勻的。見圖1。
2、2關于特征構造的解釋
合法與非法的標簽過程,是通過基于啟發式的推理過程來實現的。例如,較高數量的輸入和相同地址的重用,通常與較高地址群集相關,這導致簽名交易實體的匿名性降低。另一方面,將由多個地址控制的資金合并到一筆交易中,在交易成本方面提供了好處。因此,應對大量用戶請求,避免使用匿名保護措施的實體可能是合法的。
相反,非法活動可能傾向于使用較少輸入的交易,以減少反匿名地址群集技術的影響。
此外,在為比特幣交易構建特征方面還有兩大挑戰。第一個挑戰在于比特幣區塊鏈的規模相當于200GB的壓縮數據和約4億筆已處理交易。雖然并非所有交易都包含在本研究中使用的子集中,但仍有必要訪問完整的區塊鏈,以便觀察交易的完整歷史。為了克服這個問題,Elliptic使用了一個高性能的all-in-memory圖形引擎來計算特征。
第二個挑戰來自數據的底層圖結構和交易可擁有鄰交易數量的異質性。在構建72個聚合特征時,異質鄰域的問題是通過簡單地構造鄰居交易的原生特性的統計總量。一般來說,這個解決方案是次優的,因為它會帶來很大的信息損失。
我們將在即將提到的關于圖形深度學習方法的討論中討論這個問題,這些方法可以更好地解釋局部圖拓撲。
三、任務和方法
從高維度來講,反洗錢分析是一項反常現象檢測挑戰,其目的是在不斷增長的海量數據集中準確分類出少量非法交易。行業高達90%以上的假陽性率抑制了這一努力。
我們希望在不增加假陰性率的情況下降低假陽性率,也就是說,在不允許更多罪犯的情況下,識別出更多無辜者。
邏輯斯蒂回歸和隨機森林算法是這項任務的基準方法。而圖形深度學習也已經成為反洗錢的潛在工具。
2020年學術期刊中比特幣的引用量有所增加:The Block使用Google Scholar的數據研究了學術期刊中與區塊鏈相關的引用量的增長。其發現,2020年學術期刊中比特幣的引用量有所增加。2019年和2020年是區塊鏈相關引用增長率最低的兩年。[2020/12/18 15:37:48]
在Elliptic數據集的情況下,要對該數據執行的任務是篩選交易,以評估與給定的往來于加密貨幣錢包的交易關聯風險。
具體來說,每一筆未標記的比特幣交易都將被分類為非法或合法的。
3、1基準方法
基準機器學習方法使用監督式學習中的前94個特征進行二進制分類。這些技術包括邏輯斯蒂回歸、多層認知器演算法以及隨機森林算法。
在MLP中,每個輸入神經元接受一個數據特征,輸出是一個Softmax,每個類有一個概率向量。邏輯斯蒂回歸和隨機森林是用于反洗錢的兩種常用方法,特別是它們各自存在的優點:隨機森林用于精確性,而邏輯斯蒂回歸則用于可解釋性。但是,這些方法沒有利用任何圖形信息。
在Elliptic數據集中,局部特征被一組包含鄰域信息的72個特征增強。我們將看到這些特征的利用會改善性能。雖然這種方法顯示了二元分類問題中的圖結構,并且這種方法可以與標準的機器學習技術一起使用,而將純基于特征的方法擴展到鄰域之外是一個挑戰。這一缺點促使人們使用圖卷積網絡方法。
3、2圖卷積網絡
圖形結構數據深度學習,是一個迅速增長的研究課題。處理圖形結構固有的組合復雜性,給實際應用帶來了可擴展性挑戰,而在解決這些挑戰方面,研究者們已取得了重大進展。
具體地說,我們考慮了圖卷積網絡。圖卷積網絡由多層圖卷積組成,它類似于認知器演算法,但還使用由譜卷積驅動的鄰域聚合步驟。
假設來自Elliptic數據集的比特幣交易圖為G=(N,E),其中N是節點交易集,E是表示BTC流的邊集。圖卷積網絡的第l層采用鄰接矩陣A和節點嵌入矩陣H^(l)作為輸入,并使用權重矩陣W^(l)將節點嵌入矩陣更新至H^(l+1)作為輸出。數學上,我們寫為:
其中
的定義如下:
σ是除輸出層外所有層的激活函數。初始嵌入矩陣來自節點特征,例如
。該矩陣是由圖的拉普拉斯矩陣上的譜圖濾波驅動的,它是拉普拉斯矩陣的一個線性函數的結果。另一方面,我們也可以將
的乘法解釋為相鄰節點的轉換嵌入的集合。圖卷積網絡的參數是不同層l的權重矩陣
。
一個通常使用的2層圖卷積網絡,可整潔地寫為:
一個“skip”變量,我們發現它實際上很有用,在中間嵌入
惡意加密礦工正攻擊歐洲學術超級計算機:金色財經報道,歐洲學術界的超級計算機正在受到惡意加密礦工的攻擊。受影響的機構包括蘇格蘭的愛丁堡大學。由于安全事件,該大學已將其ARCHER超級計算機下線。EGI計算機安全和事件響應團隊表示,攻擊者似乎正在嘗試挖掘Monero(XMR)。ARCHER認為,這是整個學術界的主要問題,因為在英國和歐洲其他地方,已有數臺計算機遭到破壞。[2020/5/20]
和輸入節點特征X之間插入了一個skip連接,導致架構:
其中
是skip連接的權重矩陣,我們稱之為架構Skip-GCN。當
是0時,Skip-GCN相當于邏輯斯蒂回歸。因此,Skip-GCN至少應和邏輯斯蒂回歸一樣強大。
3、3圖卷積網絡
金融數據本質上具有時間性,因為交易是有時間戳的。有理由假設存在某種動力,盡管是隱藏的,其驅動著系統的進化。如果一個預測模型是以捕捉動態的方式設計的,那么它將更加有用。這樣,在給定時間段上訓練的模型,可更好地推廣到后續的時間步長。模型捕捉到的系統動力越好,其所能進入的視界就越長。
擴展GCN的時間模型是EvolveGCN,它為每個時間步長計算單獨的GCN模型。然后通過遞歸神經網絡將這些GCN連接起來,以捕捉系統動力。
因此,未來時間步長的GCN模型是從過去的模型演變而來的,其進化捕捉了動力。
在EvolveGCN中,GCN權重被集體視為系統狀態。通過使用RNN,模型在每次系統輸入時進行更新。輸入是當前時間點的圖形信息。圖形信息可以多種方式實例化,在EvolveGCN中,它由圖中top-k個有影響的節點的嵌入來表示。
四、實驗
下面是我們給出的在Elliptic數據集上獲得的實驗結果,我們分別對訓練和測試數據進行了70:30的時間分割。也就是說,前34個時間步長用于訓練模型,后15個時間步長用于測試。我們使用時間分割是因為它反映了任務的性質。因此,GCN是在歸納環境中訓練的。
我們首先使用三種標準方法來測試合法/非法預測的標準分類模型:邏輯斯蒂回歸、隨機森林和多層認知器演算法。
我們的MLP有一個隱藏層,其由50個神經元組成,并使用Adam優化器訓練200個時期,學習率為0.001。
我們通過使用所有166個特征以及僅使用局部特征來評估這些模型。結果匯總至表1的上半部分。
表1的下半部分報告了當我們利用數據的圖結構時所取得的結果。我們使用Adam優化器對GCN模型進行了1000個時期的訓練,學習率為0.001。在我們的實驗中,我們使用了一個2層的GCN,然后超參數調整,我們將節點嵌入的大小設置為100。
圖2:測試時間跨度內的非法F1結果
表1:非法分類結果。表格上半部分顯示的是沒有利用圖信息的結果,每個模型都顯示了具有不同輸入的結果:AF指所有特征,LF指局部特征,即前94個特征,而NE是指由GCN計算的節點嵌入。表的下半部分顯示了使用GCN的結果。
這個任務是一個二進制分類,兩個類是不平衡的。對于反洗錢來說,更重要的是少數分類。因此,我們使用加權交叉熵損失方法訓練GCN模型,以提供更高的非法樣本重要性。在超參數調整之后,我們為合法類和非法類選擇了0.3/0.7的比率。表1顯示了針對非法類的精確性、召回率(Recall)和F1分數的測試結果。為了完整起見,我們還顯示了微觀平均F1分數。
中科院計算機所研究員區塊鏈方向學術帶頭人孫毅:聯盟鏈監管有思路:金色財經現場報道,數字經濟與政府監管研討會上,中科院計算機所研究員區塊鏈方向學術帶頭人孫毅表示,“聯盟鏈有兩個特點,節點有準入機制以及用戶有身份標識。另外從監管思路上看,設立超級(主權、審計)節點,擁有區塊鏈網絡中地址/節點與實體身份的映射關系,具有上帝視角,發出監管指令,對賬戶、交易、業務進行實時監控。[2018/6/2]
注意,GCN和變量Skip-GCN的性能優于邏輯斯蒂回歸,這表明基于圖的方法與不可知圖信息方法相比是有用的。另一方面,在本示例中,輸入特性已經相當豐富了,僅使用這些特性,隨機森林方法就可以獲得最佳的F1分數。
表1中的另一個細節來自于對所有特征和僅對94個局部特征訓練方法的比較。對于所有三個被評估的模型,聚合的信息導致了更高的準確性,這表明了圖結構在這個環境中的重要性。通過這一觀察,我們進一步評估了增強輸入特征集的方法。這個實驗的目的是證明圖信息對于增強交易的表示是有用的。在該設置中,我們將從GCN獲得的節點嵌入與原始特征X連接起來。結果表明,增強的特征集提高了全特征和局部特征模型的精度。
表2比較了非時態GCN和時態EvolveGCN的預測性能。結果顯示EvolveGCN的性能一直優于GCN,盡管這一數據集的改進并不顯著。進一步研究的一個途徑,是使用其他形式的系統輸入來驅動GRU內部的重復更新。
表2:GCNv.s.EvolveGCN
黑市關閉:反洗錢的一個重要考慮因素是預測模型對新出現事件而呈現出的穩健性。這一數據集的一個有趣方面,是在數據的時間跨度內有一個黑市突然被關閉。如圖2所示,此事件導致所有方法在黑市關閉后的表現都出現了不佳的情況。即使是一個隨機森林模型,在每一個測試時間步長后重新訓練,假設每次測試后都能獲得真實的信息,也無法可靠地捕獲黑市關閉后新的非法交易。對于此類事件的穩健性,是我們需要解決的重大挑戰。
五、討論
我們已經看到了隨機森林方法顯著優于邏輯斯蒂回歸的事實,并且它也優于GCN,即使后者有圖結構信息的加持。隨機森林使用一種投票機制對來自多個決策樹的預測結果進行集成學習,每個決策樹使用數據集的子樣本進行訓練。與之相反,GCN則與大多數深度學習模型一樣,使用邏輯斯蒂回歸作為最終輸出層。因此,它可以被視為邏輯斯蒂回歸的一個重要泛化存在。
問題是:是否可以將隨機森林與圖神經網絡方法結合使用?一個簡單的想法是在運行隨機森林之前,使用從GCN計算的嵌入來增加節點特征。根據先前的實驗,這一想法只能起到很小的作用。文獻提出了另一種想法,其利用前向神經網絡對決策樹中的每個節點進行參數化。這種想法將隨機森林和神經網絡有機地結合在一起,但并沒有提出如何整合圖信息。一種可能的方法是用決策樹的可微版本替換GCN中的邏輯斯蒂回歸輸出層,從而實現端到端的訓練。
我們會在將來研究這一想法的執行情況。
六、圖形可視化
最后,為了支持分析和解釋目的,我們創建了一個名為Chronograph的可視化原型。Chronograph的目的,是通過模型的綜合表示,使得人類分析師可清晰和容易地進行研究分析。
6、1Elliptic數據集的可視化研究
在Chronograph系統中,交易被可視化為圖形上的一個節點,其邊緣表示BTC從一筆交易到另一筆交易的流動。使用投影算法UMAP在所有時間步長同時計算節點坐標。這種全局計算使布局在時間上具有可比性。界面頂部的時間步長滑塊控件,允許用戶通過僅提交選定時間步長中的節點來瀏覽時間。圖中的非法交易被染成了紅色,而合法交易則被染成了藍色,未分類的交易則為默認的黑灰色。
單擊交易節點或在左側控件中輸入交易ID時,系統會可視化突出選定的交易,并以綠色突出顯示所有的相鄰交易。在界面的左側,用戶可以看到關于不同交易類之間傳輸號的圖表一般統計信息。
在這個簡單的原型中,Chronograph使簡單的探索場景能夠直觀地檢查集群及其隨時間的存在,觀察明顯的轉移模式,或檢測其他偏差,如單個異常值。作為一個更復雜的用例,我們還提高了UMAP計算輸入的自由度:原始交易特性數據以及網絡最后一層的神經元激活似乎是兩個有趣的替代方案;對于一般的神經網絡,Rauber等人也提出了類似的方法。結果可視化中的差異將暗示模型的特殊性,即我們假設數據之間相似性的變化,可用于解釋哪些基本特征對模型是重要的。
圖4顯示了一個時間步長的兩個可選輸入的結果,原始特性數據在頂部,模型激活在底部。我們進一步使用左欄中的實際標簽和右欄中的GCN預測標簽對節點進行染色,然后得到4個網絡可視化結果。
在基于模型的布局中,非法節點顯得更為集中,這似乎是一個值得關注的特性:非法節點應該具有一些重要的特征,節點的相似性使得布局更接近。然而,由于它們并沒有在一個位置完全崩潰,因此在非法節點集內存在著質的差異是很有可能的。可視化進一步揭示了模型無法檢測非法節點的確切位置。如果附近地區出現多個錯誤預測,這可能進一步暗示該模型表現的不足。詳細研究這些交易的特性,可以從新的角度啟發討論,并導致模型的進一步改進。
a)原始交易特征向量的投影
b)最后GCN層激活的投影
圖3:UMAP投影的兩個可選輸入,左:由輸入標簽著色,右:由GCN預測著色。
圖4:Chronograph的用戶界面,用戶可瀏覽時間切片的交易數據,并觀察交易模式和變化模式。其中非法交易被染成了紅色。進一步的統計數據顯示在左側。
七、總結
總的來說,我們提出了一些加密貨幣交易鑒證法,以此打擊犯罪活動。我們已向反洗錢社區提供了一個大的、帶有標簽的交易數據集,這類數據以前從未公開過。我們分享了早期的實驗結果,使用了各種方法,包括圖卷積網絡,并討論了下一步可能的算法改進。我們為這些數據的可視化提供了一個原型,并為增強人類的分析和解釋能力提供了模型。最重要的是,我們希望以此激勵他人應對反洗錢這一重大問題挑戰,使我們的金融體系更安全、更具包容性。
致謝
這項研究工作由MIT-IBM沃森人工智能實驗室資助完成,該實驗室是麻省理工學院和IBMResearch聯合研究計劃,研究涉及的數據及領域知識由Elliptic提供。
參考文獻
ChristopherBishop.2006.PatternRecognitionandMachineLearning.SpringerVerlag.
LeoBreiman.2001.Randomforests.Machinelearning45,1(2001),5–32.
JoanBruna,WojciechZaremba,ArthurSzlam,andYannLeCun.2014.SpectralNetworksandLocallyConnectedNetworksonGraphs.InICLR.
LarsBuitinck,GillesLouppe,MathieuBlondel,FabianPedregosa,AndreasMueller,OlivierGrisel,VladNiculae,PeterPrettenhofer,AlexandreGramfort,JaquesGrobler,RobertLayton,JakeVanderPlas,ArnaudJoly,BrianHolt,andGa?lVaroquaux.2013.APIdesignformachinelearningsoftware:experiencesfromthescikit-learnproject.InECMLPKDDWorkshop:LanguagesforDataMiningandMachineLearning.108–122.
JieChen,TengfeiMa,andCaoXiao.2018.FastGCN:FastLearningwithGraphConvolutionalNetworksviaImportanceSampling.InICLR.
Micha?lDefferrard,XavierBresson,andPierreVandergheynst.2016.ConvolutionalNeuralNetworksonGraphswithFastLocalizedSpectralFiltering.InNIPS.
Demirguc-Kunt,LeoraKlapper,DorotheSinger,SinyaAnsar,andJakeHess.2017.TheGlobalFindexDatabase2017:MeasuringFinancialInclusionandtheFintechRevolution.
JustinGilmer,SamuelS.Schoenholz,PatrickF.Riley,OriolVinyals,andGeorgeE.Dahl.2017.NeuralMessagePassingforQuantumChemistry.InICML.
WilliamL.Hamilton,RexYing,andJureLeskovec.2017.InductiveRepresentationLearningonLargeGraphs.InNIPS.
MartinHarriganandChristophFretter.2016.Theunreasonableeffectivenessofaddressclustering.In2016IntlIEEEConferencesonUbiquitousIntelligence&Computing,AdvancedandTrustedComputing,ScalableComputingandCommunications,CloudandBigDataComputing,InternetofPeople,andSmartWorldCongress(UIC/ATC/ScalCom/CBDCom/IoP/SmartWorld).IEEE,368–373.
ThomasN.KipfandMaxWelling.2017.Semi-SupervisedClassificationwithGraphConvolutionalNetworks.InICLR.
KnomadandWorldBankGroup.2019.MigrationandRemittances:RecentDevelopmentsandOutlook.MigrationandDevelopmentBrief31.
PeterKontschieder,MadalinaFiterau,AntonioCriminisi,andSamuelRotaBulo.2015.DeepNeuralDecisionForests.InICCV.
YujiaLi,DanielTarlow,MarcBrockschmidt,andRichardZemel.2016.GatedGraphSequenceNeuralNetworks.InICLR.
LelandMcInnes,JohnHealy,andJamesMelville.2018.Umap:Uniformmanifoldapproximationandprojectionfordimensionreduction.arXivpreprintarXiv:1802.03426(2018).
DanielJ.Mitchell.2012.WorldBankStudyShowsHowAnti-MoneyLaunderingRulesHurtthePoor.Forbes.
SatoshiNakamoto.2008.Bitcoin:Apeer-to-peerelectroniccashsystem.(2008).
FinancialCrimesEnforcementNetwork.2019.ApplicationofFinCENa??sRegulationstoCertainBusinessModelsInvolvingConvertibleVirtualCurrencies.FIN-2019-G001(May2019).
AldoPareja,GiacomoDomeniconi,JieChen,TengfeiMa,ToyotaroSuzumura,HirokiKanezashi,TimKaler,andCharlesE.Leiserson.2019.EvolveGCN:EvolvingGraphConvolutionalNetworksforDynamicGraphs.PreprintarXiv:1902.10191.
PauloERauber,SamuelGFadel,AlexandreXFalcao,andAlexandruCTelea.2016.Visualizingthehiddenactivityofartificialneuralnetworks.IEEEtransactionsonvisualizationandcomputergraphics23,1(2016),101–110.
MarkWeber,JieChen,ToyotaroSuzumura,AldoPareja,TengfeiMa,HirokiKanezashi,TimKaler,CharlesE.Leiserson,andTaoB.Schardl.2018.ScalableGraphLearningforAnti-MoneyLaundering:AFirstLook.CoRRabs/1812.00076(2018).arXiv:1812.00076http://arxiv.org/abs/1812.00076
Wikipedia..1MalaysiaDevelopmentBerhadscandal.
Wikipedia..DanskeBankmoneylaunderingscandal.
RexYing,RuiningHe,KaifengChen,PongEksombatchai,WilliamL.Hamilton,andJureLeskovec.2018.GraphConvolutionalNeuralNetworksforWeb-ScaleRecommenderSystems.InKDD.
?
作者|哈希派分析團隊 BTC突破19200美元關口 日內漲幅為5.09%:火幣全球站數據顯示,BTC短線上漲,突破19200美元關口,現報19200.02美元,日內漲幅達到5.09%.
1900/1/1 0:00:00還有不到兩周時間,全球首個合規比特幣期貨交易所Bakkt將正式上線。經過將近一年的“跳票”,備受關注的Bakkt總算有了“出頭之日”.
1900/1/1 0:00:00從“區塊鏈是什么”到“區塊鏈能做什么”,再到“區塊鏈做了什么”,10年間,區塊鏈從技術探索走向商業應用的步伐不斷加快.
1900/1/1 0:00:00今天的內容是密碼學步入近代化的前奏,雖然還沒有到比特幣區塊鏈的加密算法,但是,今天出現了一個真正意義上的東西:鑰匙.
1900/1/1 0:00:009月10日平地一聲驚雷,中國國家外管局宣布,經國務院批準,決定取消合格境外機構投資者和人民幣合格境外機構投資者投資額度限制。這是有史以來中國對外開放市場力度最大的一次.
1900/1/1 0:00:00在幣圈,有一個很簡單的很好理解的共識,就是“鎖倉越多價格越漲”,這也是POS共識機制今年最火的概念“staking”的理論基礎,不過這個理論基礎這半年來似乎被赤裸裸的現實給打敗了.
1900/1/1 0:00:00