以太坊價格 以太坊價格
Ctrl+D 以太坊價格
ads
首頁 > MATIC > Info

LEA:一篇搞懂隱私計算中的聯邦學習(上)

Author:

Time:1900/1/1 0:00:00

摘要:對聯邦學習作一個初步但盡量全面的介紹,著重介紹聯邦學習方法的流變,解析落地應用中需要注意的質量與安全問題,并對相關應用場景提出針對性的建議。

關鍵詞:聯邦學習;數據安全;多方安全計算;同態加密;模型安全;合規

中圖分類號:TP309.7??文獻標識碼:A

FederatedLearning:issuesanalysisandadvicestopracticalapplications

GUOWJ

(Express(Hangzhou)TechnologyServiceCompanyLimited,Shanghai200080)

ABSTRACT:?AbriefyetcomprehensiveintroductiontoFederatedLearning,withfocusonthehistoricaldevelopmentofitsmethods,thequalitativeandsecurityissues.Basedonthese,advicesonthepracticalapplicationsaregiven.

KEYWORDS:?FederatedLearning;datasecurity;MPC;homomorphicencryption;modelsecurity;compliance.

聯邦學習技術今天已經成為保證隱私保護、數據安全合規的重要技術手段。特別是在金融支付領域,人們已經在積極探索應用聯邦學習技術去保護商業機密、用戶隱私以及滿足監管和合規要求的可能性。

但作為一門新技術,聯邦學習還不夠成熟;其適用的場景,以及每個場景中相應所面臨的安全問題以及局限性,還有待梳理。為此,本文介紹聯邦學習的基本底層機制,梳理其發展源流,并就其中涉及的各種質量與安全問題、落地應用注意事項提出具體建議。特別地,本文區分了各種威脅模型下的數據安全需求,以及提出應對數據投和模型投需要結合使用可信計算技術。

本文組織如下:第一節介紹聯邦學習的歷史沿革與現狀,以交待聯邦學習方法的發展脈絡,后續各節分別介紹需要在應用中注意的模型質量問題、數據安全問題、模型安全問題,最后給出落地應用建議。

1?聯邦學習的歷史沿革與現狀

1.1?前傳:分布式學習

進入21世紀后,由于搜索的需要,以及在天量數據和海量算力加持下,機器學習技術得到了蓬勃發展。機器學習的基礎訓練算法是梯度下降方法。但是梯度下降算法訓練速度特別慢,因此在梯度下降方法的基礎上發展出更多的變種,限于篇幅不一一介紹。

Web3音樂平臺Spinamp完成120萬美元融資:6月5日消息,Web3 音樂平臺 Spinamp 完成 120 萬美元融資,PTC Crypto 領投,參投方包括 Coop Records、Archetype、NOISE、Fire Eyes DAO、1kx,個人投資者包括 Bramanathan(Ideo)、DegenDavinci(音樂 NFT 收藏家)、Adam Levy(Mint Podcast)、David Greenstein(Sound.xyz)、Kyle Dhillon(Arpeggi)、Mike Perry(Heds)、Ramtin Khoee(Heds)、Cameron Greer(Heds)、和 Christina Beltramini(Lens)。[2023/6/5 21:17:28]

隨著數據量的進一步增大,即便應用這些變種,訓練也很難集中在一臺機器完成。因此,發展出了分布式訓練方法。其中值得一提的是參數混合方法。這并不是一種具體的機器學習算法,如同后來出現的聯邦學習方法一樣,它是一種方法框架。在參數混合方法的框架中,數據集被分發到計算集群,各個節點使用所分發的數據分別訓練,再將結果進行加權混合而非簡單取均值以得到結果模型。

然而,這種方法不能用于損失函數為非凸的訓練。2010年,McDonald等提出使用遍歷性參數混合方法來保證分布式訓練算法在非凸損失函數上的收斂性。其區別在于,各個節點之前所用方法為將每個數據集訓練到收斂以后再進行參數混合,而遍歷性參數混合方法則強調盡早混合,即在所分發數據集上完成一輪訓練后立刻混合參數,并將混合好的參數分發給集群節點,作為下一輪訓練的基礎模型。兩者的偽代碼如圖表1所示,其中黑體部分為兩種方法的差別。

圖表1左:參數混合方法;右:遍歷性參數混合方法

遍歷性參數混合方法能夠有效利用集群計算機得到顯著加速,作為一種分布式學習方法非常高效。然而,盡管分布式學習體現了一部分“非中心化”特性,但主要著眼于效率改進,一方面并未考慮到數據集不平衡、非獨立同分布的情況導致適用范圍受限,另一方面則未能解決隱私或者商業機密顧慮。這些缺失導致了聯邦學習的崛起。

關于訓練算法的收斂性,我們在后面還會看到其它研究提及。這里需要先指出的是,算法能夠收斂僅指訓練過程中預測誤差會越來越小,直到無法或者無須繼續改進,這時可以停止訓練。但是,不同的訓練算法、不同的數據分布,都有可能導致聯邦學習框架下的學習算法收斂到不同的模型或參數,能收斂并不等于一定能得到最優化的結果。

BCB Group計劃第二季度增加美元支付功能:金色財經報道,BCB Group首席執行官Oliver von Landsberg-Sadie表示,該公司正在加快增加美元功能的計劃,以幫助填補最近關閉的Silvergate Exchange Network(SEN)留下的漏洞。他希望在第二季度初建立美元法幣到加密貨幣的軌道,并準備投入使用。

總部位于倫敦的BCB是第一家從英國監管機構金融行為監管局(FCA)獲得支付許可的加密貨幣公司,為歐洲的貨幣包括英鎊、歐元、瑞士法郎和日元提供法定貨幣到加密貨幣的軌道,特別是向Bitstamp、Galaxy Digital、Gemini和Kraken等機構。[2023/3/6 12:45:26]

1.2?橫向聯邦學習

分布式學習的主要驅動因素為訓練效率。移動互聯網則對機器學習提出了隱私保護挑戰。一個典型的例子是考慮如何訓練一個輸入法預測模型。如果繼續沿用過往將數據集中到一處的訓練范式,勢必招致隱私顧慮。即便意圖訓練預測模型的機構并不打算將所收集的用戶輸入法習慣數據用于其它用途,它依然面臨如何安全管理這些數據的問題,并需要對可能的數據泄密承擔相應的法律責任。

為了解決這個問題,2016年,谷歌公司和愛丁堡大學的研究人員Kone?ny等聯合提出聯邦優化概念,并作出理論分析以及初步驗證。就作者所知,這是聯邦學習中的“聯邦”一詞首次出現在相關學術文獻上。Kone?ny等提出,聯邦場景的數據分布具有如圖表2所總結的特點:

圖表2聯邦場景的數據特點

這些特點導致分布式學習方法無法直接用于聯邦場景。吸收了遍歷性參數混合方法盡早進行加權混合的技術,提出一個新方法,使得參與訓練的移動設備無須上傳原始數據,只需要根據中間模型計算本地數據所產生的模型權重更新,并以節點數據量為權重加權匯總模型權重更新值,即能達到接近集中式訓練的效果。

進一步證明,此加權匯總方法可以保證在平均情況下,梯度更新的方向等同集中式訓練。這似乎能夠證明算法的正確性。但在偏離“平均情況”的情形下算法是否仍然正確或者是否仍然能夠保證訓練得到較好的模型,屬于模型質量問題,我們將在第2節進一步討論。

由于原始數據無須離開參與訓練的設備,聯邦優化方法在分布式學習的基礎上大幅度提高了隱私保護的力度。但是聯邦優化方法是一個過于寬泛的方法,例如其中針對數據維度分布不均衡的問題,算法也做了相應的調整。因此其基本算法過程以及理論分析結果均適用于后來命名的“縱向聯邦學習”場景。具體可以參見。

彭博社:Coinbase招聘新員工以增強歐洲業務:金色財經報道,加密貨幣交易所Coinbase正在通過一系列招聘新員工和晉升來鞏固其歐洲高級職位。

此前,CoinbaseCoinbase的股價跌至歷史最低點,新員工就來了。11月初,Coinbase表示,該公司將解雇60多名員工。其首席產品官Surojit Chatterjee也將在重組后于本月底辭職。(彭博社)[2022/11/28 21:07:35]

不過,機構合作場景的縱向聯邦學習跟所設定的數百萬臺設備可以各自具備一些不同數據維度的情形畢竟不一樣,反映到縱向聯邦學習,可能具體算法仍然可以優化,并需要進一步的理論探討。

次年,的共同作者McMahan和Ramage聯合其他作者進一步提出“聯邦學習”概念和“聯邦平均”算法,對聯邦優化方法作出工程技術上的優化。其中,根據數據維度出現頻率加以調整的步驟被取消了,從的橫向、縱向統一方法簡化為后來命名的“橫向聯邦學習”方法。具體方法可以參考圖表3。

圖表3橫向聯邦學習方法

橫向聯邦學習適用于大規模移動設備協同訓練模型,也可以用于多個具備相同數據維度的機構共同訓練模型,但在2B場景中更多的是各家機構所持有的數據維度有很大差異,例如,一家醫院所持有的疾患數據與一家人工智能公司所具備的建模能力,或一家銀行和一個互聯網出行平臺都無法使用橫向聯邦學習技術來打通。這種情況下,分別又催生了縱向聯邦學習技術和分割型神經網絡技術。

1.3?縱向聯邦學習

2017年,Hardy等提出兩個擁有不同數據維度的數據提供方合作訓練模型問題,并明確提出縱向聯邦學習概念,以及實體對齊和加性同態加密技術的應用。

所謂實體對齊,指機構間需要確定所共有數據的對應實體,以便能在“同一條”數據上進行訓練和預測的相關計算。對齊的前提是各方能夠協商出某些公共的、具備實體識別能力的數據維度,例如注冊用的電子郵件地址、身份證號碼、手機號碼,或者姓名、地址、生日等組合信息等等。如存在強標識,則實體對齊是典型的隱私求交問題,一般要求參與方僅獲知被對齊的集合,而未被對齊的則需要保密。

除了通過公信第三方或安全計算節點實現,也可以采用密碼學算法來實現。但一般而言,隱私求交問題的密碼學實現計算量和通信量都較大。這里需要特別指出的是,所考慮的主要是國外的情況,可能各方數據庫里并不具備強身份標識,而僅具備姓名、生日等弱標識,所采用的對齊算法則不可避免會產生誤差。因此,還深入研究了實體對齊中的各種誤差對訓練結果所產生的影響;這些分析研究是否適用于國內機構間的聯邦學習場景,需要再結合實際情況加以具體分析。

馬斯克欲削減推特10億美元成本,或導致推特面臨癱瘓風險:金色財經報道,據知情人士稱,馬斯克已指示推特團隊通過削減云服務和額外的服務器空間,每年節省超過10億美元的基礎設施成本。消息稱,馬斯克的目標是每天在基礎設施上節省300萬美元。如此大幅度的削減措施可能會使推特網站和應用程序在訪問量大的情況下面臨癱瘓風險,比如即將到來的美國中期選舉。[2022/11/4 12:15:41]

而所謂的加性同態加密技術,是一種部分同態加密技術,其只能在密文空間保持對應明文的加法運算,且其密文上的運算結果解密后可以對應到相應明文的直接計算結果。?使用了Paillier加法同態技術。

在此基礎上,提出了縱向聯邦學習訓練邏輯回歸模型的方法。其中設定A和B為數據提供方,C為公信第三方居中協調。由于訓練中需要使用A和B的對齊數據進行一定的交叉計算,即A部分的計算需要使用B的數據,B部分的計算需要使用A的數據,Paillier加法同態技術此處被用于防止A或B看見對方的明文數據,而其私鑰則由C掌握。

2019年,楊強等提出針對縱向線性回歸模型的聯邦學習方案,同樣使用了Paillier同態加密技術。由此也可見在縱向聯邦學習場景中,目前并沒有一個通用的方法框架,這跟之前所討論的橫向聯邦不同,后者有通用的FedAvg算法及其Non-IID改進算法。這對縱向聯邦學習的推廣造成一定的障礙。

需要指出的是,除了同態加密技術,應用多方安全計算技術來解決A和B之間的保密計算需求,亦屬可行,并且具備性能和功能的雙重優勢:性能方面,由于Paillier算法基于RSA,計算量相對多方安全計算協議大很多;而功能方面,則Paillier算法僅能支持加法,而多方安全計算協議則可以同時支持加法和乘法。本文第3節所提及的多個協議均可應用,如SPDZ,ABY3,SecureNN等。

1.4?分割型神經網絡

2018年,Gupta等提出SplitNN,即分割型神經網絡。這是一個多層的神經網絡,其中靠近數據的某幾層被分配給某個數據方,其它層則分配給其它參與方。這在建模外包場景中特別有用,典型的如醫療健康行業。醫院往往同時掌握醫療圖像等數據,以及對應的標簽,但一般缺乏機器學習建模能力。SplitNN能夠同時保護原始數據機密性以及模型提供方的商業秘密。

SplitNN有多種部署方式,例如:1)一方擁有數據,另一方擁有標簽和建模能力;2)一方擁有數據,第二方擁有標簽,第三方擁有建模能力;3)多方擁有不同的數據,另一方擁有標簽和建模能力。SplitNN能夠支持非常多的、具備相同數據維度的數據方,也可以支持數據維度不同的多個數據方。

加密借貸公司Nexo就資產賬戶問題對聯合創始人提起訴訟:金色財經報道,加密借貸公司Nexo正在對其聯合創始人Georgi Shulev采取法律行動,該董事聲稱對該公司所持有的一個資產賬戶擁有部分所有權。Nexo周三要求英國高等法院命令Georgi Shulev將包括比特幣和以太坊在內的九種加密貨幣轉讓給該公司,作為7月份和解協議的一部分。?根據該協議,Shulev本人將在五次分期付款中獲得價值100萬美元的USDT和Nexo代幣。

Nexo聲稱,在加密資產價格下跌的時候,它的公司賬戶被鎖定。訴訟中說,賬戶中的資產有關損失約為790萬美元。

據悉,Nexo和Shulev一直在爭奪這個賬戶,估計有880個比特幣。該公司聲稱該賬戶用于公司目的,而前董事則認為他是以個人身份開立的,并聲稱對其部分加密資產擁有所有權。(Blockworks)[2022/8/17 12:31:34]

通過將多層神經網絡的某些層分配給其中某些參與方,SplitNN能夠同時起到混淆原始數據以保護隱私、模型分散持有以保護知識產權和商業秘密之雙重作用。另外,神經網絡特別是深度神經網絡的訓練計算量非常大。SplitNN的一個動機是盡量減少在數據端的計算量,而將主要的計算負荷交給服務端完成。

2?聯邦學習的模型質量問題

這個問題是說:以集中式訓練為基準,聯邦學習能不能達到同樣或接近的模型質量?所謂模型質量,一般使用預測準確值來度量。目前為止,這個問題的答案并不令人十分滿意,學術界仍在積極研究中,以下介紹部分研究成果。

2.1?橫向聯邦學習

在橫向聯邦學習中,每個數據節點在一個中間模型的基礎上使用本地數據進行訓練,然后使用所得到的模型權重更新數據去參與形成新的中間模型。對照基準設定即集中式訓練,不難看出,橫向聯邦往往是使用多條數據而形成一次模型權重更新數據,而集中式訓練則可以根據每條數據產生模型權重更新。這在數據大體“均勻”分布于各參與設備的時候,一般沒有問題。然而,如果不均勻,那么訓練出來的模型可能會有質量問題。

Zhao等指出,在極端的非獨立同分布情況下即正好每個類別的數據都處于不同設備上的時候,橫向聯邦學習算法的精確度會大幅度降低,降幅最高可達55%;并提出了相應的折衷解決方案,即通過犧牲部分分布式特性,集中一部分數據來解決極端非獨立同分布數據可能帶來的問題。然而,這個折衷方案跟隱私保護目標產生了直接沖突。

除了標簽分布問題,Non-IID可能還有其它形式,例如數據主體之間可能具備不同的、足以影響模型參數的特性。例如,語音識別樣本數據可能具有鮮明的年齡特色,而消費習慣模型則可能具備地域特色。

為此,Mohri等提出“不可知”聯邦學習方法。所謂不可知,是指在組合每個參與方所訓練出來的本地模型時,并不采用FedAvg算法以數據量占比為權重加權匯總的做法,而是說“不知道”應該用什么權重來匯總。

由于不知道具體的權重分布,AFL算法著眼于訓練出一個權重分布,以最小化在所有可能的數據-標簽聯合分布中造成的最大期望損失。Mohri等作者測試了三個數據集,結果顯示AFL能在一定程度上改善預測精度,特別是在傳統方法預測精度比較差的類別上能有較大改善。Mohri等認為,這顯示AFL算法能夠產生更為“公平”的訓練結果。

2.2?縱向聯邦學習

縱向聯邦學習面臨類似橫向聯邦學習的Non-IID數據問題:如果針對每條對齊數據都計算更新、交換數據,則計算量、通信量都很大;如果將一批數據匯總計算一次更新,則需要設法保證總體數據在各批次數據之間是獨立同分布的,以此避免Non-IID數據問題。幸運的是,跟橫向聯邦學習場景不同,縱向場景中,參與方一般擁有全部交集用戶,因此具備保證數據獨立同分布的基礎。目前還沒有看到相關的研究文獻,但這是落地應用需要關注的問題:如果實體對齊后的數據亂序重排未能解決Non-IID問題,則需要專門再去研究。這也是為什么需要設立性能基準的原因之一。”中5.2內容)

2.3?分割型神經網絡

除了需要在參與實體之間傳遞某層的輸出或權重更新,分割型神經網絡跟集中式訓練的過程并無太多差異。因此,它能達到的模型質量可以匹敵集中式訓練。SplitNN設定中沒有將客戶端全部數據本地集中訓練以后再歸集服務器的做法,而是每條數據都需要經過本地層計算后傳給服務器。這避免了Non-IID數據引起的模型質量問題,也是SplitNN方法的一個顯著優勢。

參考資料:

MannG,McDonaldR,MohriM,etal.EfficientLarge-ScaleDistributedTrainingofConditionalMaximumEntropyModels.NeuralInformationProcessingSystems(NIPS),2009.

McDonaldR,?HallK,?MannG.DistributedTrainingStrategiesfortheStructuredPerceptron//HumanLanguageTechnologies:ConferenceoftheNorthAmericanChapteroftheAssociationofComputationalLinguistics,Proceedings,June2-4,2010,LosAngeles,California,USA.AssociationforComputationalLinguistics,2010.

Kone?nyJ,?McMahanHB,?RamageD,etal.FederatedOptimization:DistributedMachineLearningforOn-DeviceIntelligence.?arXivpreprintarXiv:1610.02527.2016.

McMahanHB,?MooreE,?RamageD,etal.Communication-EfficientLearningofDeepNetworksfromDecentralizedData.ArtificialIntelligenceandStatistics,2017:1273-1282

HardyS,HeneckaW,Ivey-LawH,etal.Privatefederatedlearningonverticallypartitioneddataviaentityresolutionandadditivelyhomomorphicencryption.arXivpreprintarXiv:1711.10677.2017.

FreedmanMJ,?NissimK,?PinkasB.EfficientPrivateMatchingandSetIntersection//Internationalconferenceonthetheoryandapplicationsofcryptographictechniques.SpringerBerlinHeidelberg,2004:1-19.

PaillierP.Public-KeyCryptosystemsBasedonCompositeDegreeResiduosityClasses.Internationalconferenceonthetheoryandapplicationsofcryptographictechniques.Springer,Berlin,Heidelberg,1999:223-238.

YangQ,?LiuY,?ChenT,etal.FederatedMachineLearning:ConceptandApplications.ACMTransactionsonIntelligentSystemsandTechnology,2019,10(2):1-19.

GuptaO,?RaskarR.Distributedlearningofdeepneuralnetworkovermultipleagents.Journalofnetworkandcomputerapplications,2018,116(AUG.):1-8.

VepakommaP,?GuptaO,?SwedishT,etal.Splitlearningforhealth:Distributeddeeplearningwithoutsharingrawpatientdata.arXivpreprintarXiv:1812.00564.2018.

ZhaoY,?LiM,?LaiL,etal.FederatedLearningwithNon-IIDData.arXivpreprintarXiv:1806.00582.2018.

MohriM,?SivekG,?SureshAT.AgnosticFederatedLearning.Internationalconferenceon?machinelearning,?2019:4615-4625.

作者簡介

郭偉基:原美國運通在中國境內合資銀行卡清算機構——連通技術服務有限公司創新技術部負責人,總監,主要從事前沿創新技術如隱私計算、聯邦學習、同態加密、智能合約等在金融支付、風險管理、精準營銷等方面的應用。

待續......敬請期待~

內容旨在信息傳遞,不構成任何投資建議。

排版:Shine丨達瓴智庫

審核:Amber丨達瓴智庫

Tags:IONINGTEDLEAINCEPTION價格kingsinbaUnited Emirate CoinLEAF價格

MATIC
比特幣:從2021年Multicoin Capital峰會上你可以學到的 10 件事

撰文:emagicTT 編譯:Alex MulticoinCapital的對沖基金的回報率為20,287%以上。它的1號基金于2018年籌集到135倍的MTM凈MOIC和28倍的凈回報.

1900/1/1 0:00:00
WEB3.0:摩根溪創始人為你解釋,誰才是Web3.0的擁有者?

2021的年末,Web3.0被討論的熱度空前,推特創始人JackDorsey與頂級投資機構A16z就Web3.0的問題在社交媒體上激烈爭吵,直至拉黑.

1900/1/1 0:00:00
以太坊:巴比特獨家|杭州市委書記:超前布局“元宇宙”等未來產業

巴比特訊,日前召開的杭州市委十二屆十四次全會上,市委書記劉捷在工作報告中指出,要超前布局量子通信、“元宇宙”等未來產業,高水平打造“全國數字經濟第一城”.

1900/1/1 0:00:00
PIT:融資新聞丨元宇宙虛擬形象平臺Ready Player Me完成1300萬美元融資

12月30日,Wolf3D宣布,它已經完成了對其元宇宙虛擬形象平臺ReadyPlayerMe的一輪融資.

1900/1/1 0:00:00
BOOK:新任CTO發內部信:Meta旨在與區塊鏈、Web3「深度兼容」

本文來自《紐約時報》,原文作者:RyanMacOdaily星球日報譯者?|念銀思唐Facebook的一名高管近日在一封內部信中表示.

1900/1/1 0:00:00
DAO:StarSharks完成480萬美元私募融資,Binance Labs、LD Capital等參投

DeFi之道訊,12月24日,GameFi項目星鯊StarSharks完成480萬美元私募融資.

1900/1/1 0:00:00
ads