為訓練數(shù)據(jù)建一個TB級計算「飛地」,聯(lián)邦學習的靠譜實現(xiàn)方式了解一下?
2017年,著名雜志《經濟學人》發(fā)表封面文章稱,數(shù)據(jù)已經取代石油成為當今世界最有價值的資源。在那之后,「數(shù)據(jù)是新時代的『石油』」這一說法逐漸深入人心。
五年后的今天,人們對數(shù)據(jù)的重視又上了一個新的臺階,尤其是在AI領域。大家普遍認為,數(shù)據(jù)的質量和規(guī)模將對AI的研究和落地產生重要影響。
在質量方面,吳恩達等學者提出,AI領域正經歷從「以模型為中心」到「以數(shù)據(jù)為中心」的轉變。他認為,「對于很多行業(yè)來說,現(xiàn)在更有效率的做法是保持神經網絡體系架構不變,轉而尋找改進數(shù)據(jù)的方法」。為了幫助機構提升數(shù)據(jù)質量,吳恩達所在的Landing.AI等公司正在構建一些實用的工具。
在規(guī)模方面,AI大廠掀起的大模型暴力美學依然占據(jù)主流,人們依然希望借助大數(shù)據(jù)、大算力探索深度學習的天花板。不過,與大模型需要的海量數(shù)據(jù)相比,單個機構所能處理的數(shù)據(jù)往往是不充分的:一是數(shù)據(jù)量不夠大,二是數(shù)據(jù)的維度和來源不夠豐富。為了解決這些問題,越來越多的機構開始走向多方聯(lián)合的道路,希望借助多方的合力訓練出更精準的AI模型,讓數(shù)據(jù)在流通中發(fā)揮應有的價值。
不過,受限于法律法規(guī)、政策監(jiān)管、商業(yè)機密、個人隱私等數(shù)據(jù)隱私安全上的約束,多個數(shù)據(jù)來源方無法直接交換數(shù)據(jù),這就形成了「數(shù)據(jù)孤島」現(xiàn)象,制約著AI模型能力的進一步提高。受此需求驅動,聯(lián)邦學習應運而生。
聯(lián)邦學習的核心思想是通過在多個擁有本地數(shù)據(jù)的數(shù)據(jù)源之間進行分布式模型訓練,在不需要交換本地個體或樣本數(shù)據(jù)的前提下,僅通過交換模型參數(shù)或中間結果的方式,構建基于多方數(shù)據(jù)下的全局模型,從而實現(xiàn)「數(shù)據(jù)可用不可見」、「數(shù)據(jù)不動模型動」。
和2016年谷歌剛剛提出這一概念時不同,聯(lián)邦學習如今已經有了很多具體的實現(xiàn)路徑,既有基于軟件的,也有基于硬件的。其中,基于硬件的路徑——主要是 TEE(Trusted Execution Environment,可信執(zhí)行環(huán)境)——由于可支持多層次、高復雜度的算法邏輯實現(xiàn)以及運算效率高等優(yōu)勢而受到廣大企業(yè)的青睞,落地速度也在不斷加快,尤其在醫(yī)療、金融等數(shù)據(jù)安全要求較高的行業(yè)。
基于TEE的醫(yī)療科研多方安全計算平臺
首先來說醫(yī)療行業(yè)。AI+醫(yī)療是一個發(fā)展較早的細分領域,但直到今天,Geoffrey Hinton 2016年的預言——AI將取代放射科醫(yī)生——依然沒有實現(xiàn)。在種種阻礙因素中,醫(yī)療領域的數(shù)據(jù)聚合是一個繞不開的難題,包括患者生命體征信息、疾病信息、影像檢驗報告、互聯(lián)網診療記錄、藥品使用等各種不能離開醫(yī)院的基礎數(shù)據(jù)。
近幾年,采用TEE方案的聯(lián)邦學習方法在各醫(yī)療科研機構的實踐中收獲了良好的效果,它可以為「使用中」(即處于計算或處理中)的數(shù)據(jù)提供保護,與其他針對靜態(tài)數(shù)據(jù)和傳輸中的數(shù)據(jù)的保護方法一起,為數(shù)據(jù)流動與共享「護航」。
三種狀態(tài)下的數(shù)據(jù)保護
為了保護這些使用中的數(shù)據(jù),TEE會在硬件中為它們單獨分配一塊隔離的內存區(qū)域,所有相關數(shù)據(jù)的計算均在這塊區(qū)域中進行,并且除了經過授權的接口外,硬件中的其他部分均不能訪問這塊隔離的內存中的信息,以此來實現(xiàn)隱私計算。
與一般的分布式機器學習或深度學習方案相比,聯(lián)邦學習方法可以為醫(yī)療科研增添以下優(yōu)勢:
●醫(yī)療數(shù)據(jù)不脫離本地,各參與方可接入各自數(shù)據(jù)訓練全局模型;
●每個醫(yī)療科研參與方都可參與訓練過程,模型損失可控;
●訓練過程能更好地兼顧隱私和安全需求,各參與方能在不暴露數(shù)據(jù)及加密形態(tài)的前提下進行聯(lián)合建模。
如果這種聯(lián)邦學習方法或方案能再加上一個前綴——「基于TEE」,那么它還會收獲更多強化功能,例如它可以通過硬件環(huán)境上的隔離,使安全保護機制獨立于軟件應用、操作系統(tǒng)或硬件配置之外,使其保護的對象可以更好地應對來自硬件驅動程序、虛擬機乃至操作系統(tǒng)的攻擊。再如,它的用途,不僅僅是可以提供數(shù)據(jù)運行態(tài)全鏈路的保護,來確保數(shù)據(jù)中的機密、隱私和完整性得到更強的防護,它還能對指定的應用程序或算法的代碼進行同樣可靠的防護;又如,它還擁有更完備的遠程鑒權能力,能讓相關數(shù)據(jù)和密鑰的傳遞更為可靠;最后,相比那些非硬件加速支持的聯(lián)邦學習及多方隱私計算方案,有TEE加持的方案,往往在兼顧安全防護能力和提升數(shù)據(jù)處理性能上有更好的表現(xiàn)。
正是這些優(yōu)勢,給了眾多醫(yī)療科研機構選擇基于TEE構建自己的聯(lián)邦學習系統(tǒng)的理由。
以多年來一直深耕醫(yī)療AI與大數(shù)據(jù)技術創(chuàng)新的醫(yī)渡云為例,這家公司基于聯(lián)邦學習等隱私計算方法打造了一個多方安全計算解決方案,自下而上包含面向院內外業(yè)務系統(tǒng)的數(shù)據(jù)采集系統(tǒng)、進行數(shù)據(jù)加工治理的專病庫以及開展多方隱私計算的安全計算平臺等幾個部分,其中的多方安全計算平臺也支持TEE方式進行構建。
醫(yī)渡云多方安全計算解決方案整體架構
而且,他們采用的是實現(xiàn)TEE的一種主流技術——英特爾?軟件防護擴展(Intel?Software Guard Extensions,英特爾?SGX)。
英特爾? SGX技術實際作用示意圖
在工作時,SGX技術會給相關數(shù)據(jù)分配一塊隔離區(qū)域,也叫「飛地(Enclave)」。我們可以把它理解成一個隔離醫(yī)院,但能入駐這個醫(yī)院的并不是已經被感染的患者,而是那些健康群體,即需要受到嚴密保護的應用代碼或關鍵數(shù)據(jù)。SGX技術能在CPU的支持下,在內存等特定硬件環(huán)境中構建出這樣一個飛地,讓各醫(yī)療科研機構的數(shù)據(jù)分析、模型訓練及推理所涉及的數(shù)據(jù)都運行在各自的飛地中,并通過訪問控制為這些應用代碼和數(shù)據(jù)提供更可信賴的安全保障。
這種飛地獨立于操作系統(tǒng)、虛擬機以及BIOS系統(tǒng)之外,也就是說,即便一些比你的應用程序更底層的基礎軟件或系統(tǒng)在惡意攻擊中淪陷,飛地也可以通過基于硬件的、增強型的安全防護更有效地阻斷這些攻擊,盡力避免其中的數(shù)據(jù)或代碼被竊取或篡改。
那么,這個「飛地」有多大呢?這和你要使用的英特爾處理器的種類及型號有關。醫(yī)渡云解決方案使用的是英特爾去年發(fā)布的面向單路和雙路服務器的第三代至強?可擴展處理器,它已經全面內置SGX技術,可在雙路服務器上實現(xiàn)最大容量為1TB的保留加密內存區(qū)域(Enclave Page Cache,EPC,單顆處理器最高支持512GB),這對于醫(yī)療科研機構進一步擴展AI模型訓練與推理的數(shù)據(jù)規(guī)模至關重要。
不過,如果你以為醫(yī)渡云的方案僅僅是要借SGX技術來實現(xiàn)更大、更強的安全「飛地」的話,那就是小看了全新至強? 可擴展處理器在AI實踐中的價值了——它除內置有SGX技術外,還有來自英特爾?高級矢量擴展512(英特爾?AVX-512)技術和英特爾?深度學習加速(英特爾?DL Boost)技術的加成,也可在兼顧更優(yōu)安全能力的同時,為醫(yī)渡云方案涉及的復雜計算需求提供有力支撐。
因此這款處理器在醫(yī)渡云的多方安全計算解決方案中同時發(fā)揮著加固安全與提升性能的雙重價值。正是得益于它帶來的綜合優(yōu)勢,醫(yī)渡云已經開始支持多家醫(yī)院和醫(yī)療科研機構開發(fā)一系列基于該方案的聯(lián)合研究項目,同時也通過了中國信息通信研究院在隱私保護計算技術上的兩項認證——《基于多方安全計算的數(shù)據(jù)流通產品技術要求與測試方法》及《基于聯(lián)邦學習的數(shù)據(jù)流通產品技術要求與測試方法》。
基于TEE的多源金融大數(shù)據(jù)隱私計算技術驗證
另一個非常青睞TEE解決方案的是金融行業(yè)。與其他技術方案相比,以硬件為載體來為數(shù)據(jù)和代碼提供安全可信環(huán)境的TEE,在金融行業(yè)最關注的數(shù)據(jù)安全、性能以及可用性三個維度上,能取得接近「帕累托最優(yōu)」的效果,因此受到較多企業(yè)的青睞。
聯(lián)邦學習中不同安全隱私技術綜合評估
在這個行業(yè),企業(yè)通常需要將已有的大量AI應用以聯(lián)邦學習模式高效、便捷地擴展到現(xiàn)有的分布式大數(shù)據(jù)平臺上(如Spark、Flink、Hadoop集群)。在此過程中,他們可能會遇到一些挑戰(zhàn),比如如何在開展聯(lián)邦學習時依然保持AI訓練與推理的高效能?如何在應用TEE技術特性時做到數(shù)據(jù)的全棧可信?如何將二進制應用程序不做改動地運行在TEE環(huán)境中?
英特爾與中國銀聯(lián)電子商務與電子支付國家工程實驗室組成的聯(lián)合研究團隊通過開源的統(tǒng)一大數(shù)據(jù)分析與AI平臺——BigDL,驗證了基于TEE的聯(lián)邦學習與實時預測方案,有助于解決上述問題。
如圖所示,基于英特爾?SGX技術的BigDL提供了自下而上可信的安全技術、不同層面的軟件框架以及用于連接大數(shù)據(jù)平臺和聯(lián)邦學習方法的端到端平臺。
基于英特爾?SGX技術的BigDL平臺架構
我們重點來看一下安全技術層面。在這一層面,該平臺通過第三代英特爾?至強?可擴展處理器集成的英特爾?SGX技術,提供了所需的TEE環(huán)境;同時,還通過加入Gramine-SGX這樣的開源LibOS組件,來加速既有Al模型或應用程序在SGX技術上的無縫遷移。Gramine-SGX允許用戶在不修改相應模塊代碼的情況下,通過系統(tǒng)調用的方式直接在SGX環(huán)境中執(zhí)行,大大降低了SGX技術的應用門檻。同時,這一組件的加入,也使英特爾開源的OpenVINO?工具套件和OneDNN等重要Al軟件工具能夠在SGX環(huán)境中方便地運行。
一種典型的基于英特爾?SGX-BigDL平臺的預測方案架構如下圖所示,用戶數(shù)據(jù)可以導入基于Gramine-SGX的SGX環(huán)境中,由BigDL平臺負責連通和調度預測推理所需的模型庫、框架和工具,在完成預測推理后,再向用戶輸出相應結果,中間所涉及的數(shù)據(jù)和工作流程都可獲得更有效的安全保障。
典型的基于英特爾?SGX-BigDL平臺的預測方案
聯(lián)合團隊的驗證結果表明,基于英特爾?SGX-BigDL平臺部署的實時計算與預測推理方案,能在更好地保障端到端數(shù)據(jù)安全的前提下,依舊保持預期的性能。
Gartner曲線:聯(lián)邦學習技術還在上升期
「為什么我們要投入聯(lián)邦學習?」中國人工智能開源軟件發(fā)展聯(lián)盟副理事長王健宗博士在前段時間英特爾聯(lián)合國際學術期刊《Science》推出的「架構師成長計劃」第二季系列課程中提出了這樣一個問題。
為了解釋這個問題,他向大家展示了去年的Gartner技術成熟度曲線。這份曲線圖顯示,聯(lián)邦學習當前正處于高速發(fā)展期,未來將成為一項非常重要的計算技術。這也是Gartner首次將聯(lián)邦學習納入技術成熟度曲線。
Gartner技術成熟度曲線
在應用方面,除了我們前面提到的醫(yī)療和金融場景,王健宗還系統(tǒng)地總結了聯(lián)邦學習在物聯(lián)網、政務等領域的應用。從這里也可以看出,聯(lián)邦學習技術的應用范圍正在不斷擴大,越來越多企業(yè)正放下顧慮,更放心地參與到共同的AI應用開發(fā)中來。這背后,以TEE為代表的安全計算實現(xiàn)方案功不可沒。
聯(lián)邦學習在行業(yè)場景中的應用
值得一提的是,王健宗早在幾年前就曾帶領他在平安科技的團隊開始構建基于英特爾?SGX的TEE聯(lián)邦學習方案,也見證了這一技術地不斷迭代。他對第三代至強?可擴展處理器1TB的EPC容量以及英特爾?SGX對云邊協(xié)同的支持印象深刻。他認為,在現(xiàn)在大家都比較重視隱私保護、數(shù)據(jù)安全的環(huán)境下,英特爾?SGX為我們提供了一個更安全的可信計算環(huán)境。
對于聯(lián)邦學習未來的發(fā)展,王健宗主要看好三個方向:自動化機器學習、零代碼聯(lián)邦和大規(guī)?;ヂ?lián)互通。他解釋說,聯(lián)邦學習現(xiàn)在仍然是一個比較復雜的技術,有很多工程方面的工作。未來他希望能實現(xiàn)自動化機器學習,以及通過簡單地拖拉拽,實現(xiàn)零代碼的聯(lián)邦學習,進而讓聯(lián)邦學習應用到更多對數(shù)據(jù)、代碼安全性要求更高的領域。
相關稿件