百度「聯邦學習」戰略全佈局丨萬字長文

對百度來説,聯邦學習+金融會產生怎樣的火花?

雷鋒網AI金融評論推出的《BATJ高管公開課》第四期,就邀請到了百度智能雲智慧金融事業部算法負責人謝國斌做客線上講堂,揭秘百度智能雲在金融領域的安全計算佈局和技術思考。

此次課程,他將分享基於聯邦學習技術的百度金融安全計算平台(度信)建設與實際應用,講述如何借力安全技術架構、脱敏方法和合規制度設計,在“用户充分授權、數據來源合法合規”前提下,打破數據孤島,實現多方數據加密融合建模,助力金融企業業務的開展。

以下為謝國斌演講全文內容,AI金融評論做了不改變原意的編輯:

百度智能雲的數據孤島破解之道

我們在跟很多的金融客户進行溝通的時候,他們普遍面臨的痛點,就是數據孤島和隱私保護的問題。

百度「聯邦學習」戰略全佈局丨萬字長文

目前的現狀是,一方面要保護客户的隱私,另外一方面,數據孤島在不同的程度上存在着,去年央行發佈的金融科技三年發展規劃裏,也強調了要“消除信息的壁壘;數據融合。” 

今年4月,國務院也在《關於構建更加完善的要素市場化配置體制機制的意見》裏,強調了數據的共享、數據資源的整合和安全保護。

所以,“數據孤島”和“隱私保護”兩者的困境,在業內一直是個難題。 

百度「聯邦學習」戰略全佈局丨萬字長文

行業裏做這塊技術的公司,一般有如下路徑在積極探索:

其中一種就是聯邦學習;還有與之接近的,就是在做參數交換、梯度交換的時候,會用到的多方安全計算。另一種以硬件加密為主,可信計算(TEE),在內存裏做安全加密。以及基於雲安全,做安全隔離域的方法。

基於剛才説到的痛點,百度推出了度信金融安全計算平台,做數據融合,前提是強調用户要充分授權,數據來源要合法、合規。也提出了聯合建模產品,拒絕數據孤島的存在,產品對上面幾種路徑都是支持的。

今天的要點,主要是分享在聯邦學習和多方安全計算技術路徑上,我們所做的嘗試和產品的研發。

我們的金融安全計算平台有以下特點:

百度「聯邦學習」戰略全佈局丨萬字長文


平台主要服務於金融行業to B客户,會考慮行業裏特別關注的一些場景,比如營銷、風控、投研、反欺詐。我們基於金融的建模,有一些專用的功能點增強。從安全特性上,無論硬件軟件,有多種的方式進行技術加固。

金融雲專區上,我們通過了國家的四級等級保護;數據流通方面,我們今年通過了信通院的相關技術測評。

從計算建模層面看,我們是自主操作,甲方乙方各自操作,全程免編碼,流程很簡單,性能比同類的算法也要快。

私有云、公有云和私有化方面,我們有多種方式部署,產品目前也能提供工業級的使用體驗,包括嚴格的工程封裝、項目的驗證實測,還有百度沉澱的金融行業案例、提供金融行業的場景的解決方案。

度信金融安全計算平台的技術方案

我們這個平台建設,剛才提到用三大類技術方案,統一前端入口和統一後台架構。

百度「聯邦學習」戰略全佈局丨萬字長文

後台的架構,從下往上看,分為執行層、應用層、操作層、場景層。

從執行層看,中間是基於多方計算的聯邦學習引擎,引擎最下面是基於加密的密碼學算法和一些常用的不經意傳輸、同態加密、密鑰分享等。

往上是基於密碼學算法的多方安全計算,雙方或多方的加密數據的協調和交換,隱私的PSI對齊、ID化、聯邦分析和聯邦學習。

再往上是應用層一些基於模型的算法的應用,這個是標準的機器學習建模流程。

操作層有可視化的操作平台和4A安全賦能金融行業,打造營銷風控端對端的場景化建模功能。

我們的平台架構,需要滿足三個不同的客户需求:

定製化方案要滿足客户不同的安全等級要求;有客户對建模要求較高,那對算子、算法、模型多樣性、交互和應用性方面要求就高一些,我們也會提供類似的解決方案。還有對不同的資源配置,構建私有云、公有云和專有云支撐,支持不同的部署方案。

百度「聯邦學習」戰略全佈局丨萬字長文

這個平台的操作很簡單,就是三個步驟。

先是合作的AB雙方,完成本地數據的上傳。原則上都是上傳到自己的IDC機房裏,數據不出域。

第二步細分為幾個小步驟:

1.數據的融合,會通過隱私保護的求交技術PSI,達到雙方的數據的可用不可見。

強調一下,融合不會泄露雙方的數據隱私,比如説甲方有一億的客户,B方有5000萬的客户,雙方去求交集,求出來只有500萬客户,那麼我們只知道這500萬的交集,剩下的客户羣雙方都是不知道的。

即使求交了這500萬的客户,我們也只有某一個主要的使用方,比如甲方銀行在使用的時候,才知道這500萬相互求交的客户號碼是什麼。

2.求交的這批客户,我們會進行簡單的特徵工程,一些算法模型訓練,包括像機器學習的邏輯迴歸、GBDT等,也按照這個數據拆分,做完模型訓練、輸出模型報告以後,進行模式部署、模型推理和預測發佈。

百度「聯邦學習」戰略全佈局丨萬字長文

第一步上傳樣本比較簡單,把數據上傳以後,摁一個按鍵,就會看到這一橫行裏數據的上傳成功,然後AB雙方在這個地方點鼠標發佈,數據才傳到本地的服務器上面。

百度「聯邦學習」戰略全佈局丨萬字長文

第二步模型訓練,會自動包含剛才説的樣本對齊,包括可選的特徵工程,還有算法參數、算法選擇等。

在模型訓練過程中,等它出來一個結果,就會有一些像我這裏截屏的模型,配置基本信息,比如雙方對齊了多少樣本,有哪一些特徵?這裏只能看到特徵名稱。我們算法所涉及的每一個主要參數是什麼樣的。這裏以邏輯式迴歸為例,生成模型評估報告,像ROC、KS值等等,就完成整個模型訓練。

百度「聯邦學習」戰略全佈局丨萬字長文

第三步就是模型預測,需要在頁面新建預測任務名稱,包括描述,還有我們選擇哪個預測的模型。生成的模型在這裏做選擇,再選擇要預測的數據集,點藍色按鈕完成整個模型預測過程。一定時間後,就會看到右下角預測成功的顯示,整個模型的離線預測就完成了,也可以用新建預測服務以API的方式供外調用。

我們平台的設計理念,是全程免編碼,通過鼠標的拖拽來完成的。

度信平台在銀行業、保險業的應用銀行信貸產品的互聯網營銷

百度「聯邦學習」戰略全佈局丨萬字長文

這家銀行開展信貸業務時,需要通過互聯網去線上獲客,但它並沒有這種線上資源或流量去投放,也沒有相關風險管理經驗,於是它就跟某家互聯網公司進行渠道上的聯合建模,實現精準獲客和控制風險。

首先是銀行把他的數據和互聯網合作方,把數據在自己的機房裏邊準備好,然後各自聯邦學習時,上傳梯度參數。

在互聯網渠道這一端,主要是上傳數據,建模發生在銀行這端自行操作,就完成了整個建模過程,達到了數據模型建設,完成後確定合適人羣。

第三步,精準廣告投放,包括精準獲客,這部分我們項目的客户日均調用量是50萬筆。整體貸後表現非常好,降低了風險,也節約了這家銀行的成本。 

線上風控+聯邦學習

百度「聯邦學習」戰略全佈局丨萬字長文

因為銀行沒有過往的一些互聯網行為信息,也需要為此通過互聯網渠道來合作、來進行聯合建模。聯邦學習最後的效果就是,讓申請率提升了,通過率又穩定在一定的範圍內,不良率低於銀行業同業平均水平。

這個案例,我們推送的貸款客户金額是超過千萬;通過率控制在穩定範圍;該案例的不良貸款率是0.38 ,比去年銀行業1.81的不良率低了不少。 

不同險種交叉營銷

百度「聯邦學習」戰略全佈局丨萬字長文

這個案例是一家車險公司的業務,在客户裏篩選健康險的意向用户,進行精準點對點促銷。建模流程與上個案例類似,由保險公司提供的高響應人羣樣本和互聯網公司的數據進行融合訓練,最後結果運用於全量的車險客户羣。

效果上,這個模型的AUC值達到了0.76,減少了對客户的打擾,也降低了營銷的成本。 

聯邦學習落地金融的關鍵技術點

百度「聯邦學習」戰略全佈局丨萬字長文

聯邦學習本質上是軟件加密技術,數據不出域、不出本企業,主要是通過梯度參數出域。從本質上來説是去中心化的方案。橫向聯邦由谷歌在2016年的時候研發出來,即數據的水平切分,主要用於金融同業間的數據融合。

橫向聯邦學習的計算步驟主要有四:雙方發送加密的梯度,安全的聚合,發送聚合的加密梯度參數,再解密梯度更新模型。

縱向聯邦學習基於數據的垂直細分,主要用於金融業和非金融行業,特別是像一家銀行和一家互聯網公司的數據融合。兩家公司的客户羣很多時候是重疊的,特徵互補。

首先有分發公鑰,加密交換中間的結果,再進行加密梯度和損失的計算,然後更新模型。

百度「聯邦學習」戰略全佈局丨萬字長文

在和金融企業溝通的時候,我們發現他們關注的點有這些:

整個聯邦學習裏,金融企業運用最多的是縱向聯邦學習,金融機構更想看到的是和他非同業之間的數據融合。

銀行在和第三方機構合作時,非常強調這些數據進來以後,對指標的一些增量貢獻,在意的是在現有基礎上的提升。如果在現有基礎上,引入的數據源沒有很大幅度的提升、效果不明顯,對金融機構的吸引力就會降低。

同時金融機構也強調數據源的差異化,如果數據來源都很類似,那對指標的貢獻、對模型效果,提升度不是很大。 

聯邦學習是整個框架裏的主要技術。

百度「聯邦學習」戰略全佈局丨萬字長文

另外,多方安全計算所涉及的加密技術,其主要原理如圖左所示,四個參與方在針對任何一方都沒有可信的情況下,安全地進行多方協同計算。

在一個分佈式的網絡中,多個的參與實體各自持有秘密的輸入,完成對某函數的計算;但是要求每一個參與實體,除了計算的最終結果以外,其他的中間過程,包括自己其他客户的原始數據,任何的輸入數據都是不可以看到、都是不可以獲得的,這保證了參與各方的數據的安全性。

在安全計算過程中,所用到的一些密碼學或加密技術,概括起來有這麼七種。

  • 混淆電路,來自於物理學電路原理:一堆人各自擁有隱私數據,想把數據合起來進行計算,但又不想把數據交換給別人,典型的案例就是百萬富翁問題。

  • 不經意傳輸,服務的某一個接收方,以不經意的方式得到服務的發送方輸入的一些信息、信號,這樣就可以保護接受者的隱私不被髮送者所知道。

  • 秘密的比較協議,計算的雙方各輸入一個數值,但是他們又希望在不向對方泄露自己的數據的前提下,比較出這兩個數的大小。

  • 同態加密,用這種方法先計算,後解密,也等價於先解密後計算。同態加密裏也有加法同態、乘法同態,包括全同態、偏同態、半同態等,它在聯邦學習中應用也較多。

  • 秘密分享,將秘密分割存儲,多個參與者要相互協作才能恢復秘密的消息,如果有一方沒有參與,是沒有辦法把這個秘密完全恢復出來的。

  • 零知識證明,證明者能夠在不向驗證者提供任何有用的信息情況下,使驗證者相信某個論斷是正確的。

  • 差分隱私,這在業界應用也比較多。

百度「聯邦學習」戰略全佈局丨萬字長文

百度在多方安全計算方面,有自己的MPC平台架構。我們的平台架構分為這麼六層,從基礎到應用,有運行環境基於DOCKER的,還有基於雲和SERVER的。

在基礎的運行環境往上,有剛才説到的六七種加密算法。再往上是整個系統包括TLS、4A這一塊的安全。再往上是系統平台層,有用户角色管理,包括數據和分佈式調度、監控等。再往上看是數據的接入,再到數據的應用。

下面我會重點介紹三類算法,都是百度自研的。

百度「聯邦學習」戰略全佈局丨萬字長文

第一種是邏輯迴歸,邏輯迴歸是常用的二分類的分類器,在這種分類器上面我們加了一個基於PrivC的加密算法的邏輯迴歸,這種算法是基於MPC的安全學習。

我們在19年的安全頂會上面發表了關於這個算法的文章,特點是訓練速度和在公開的服務器上的明文相比,速度大概會是在明文算法的40倍以內,也就是明文算法假如要用時1分鐘,那麼我們要用時40分鐘。

這裏有一個案例,就是我們基於深度MNIST公開數據集,6萬行784位的運算,我們用時25秒,時間還是比較快的。

在下面的截圖,我們看到一些Table2,在一些加減還有一些常規的比較上面,基於我們自研的PrivC的算法和公開的其他的一些加密算法,像ABY、EMP、SPDZ等等,我們的運算速度都比他們快,標出的黑色數值是越小越好。

我們的準確率和明文算法比,會達到99%左右,比明文算法低一點點,一般的梯度,有時候建模如果控制得不太好,都會有一些模型的損耗,而我們的損耗是比較少的。

百度「聯邦學習」戰略全佈局丨萬字長文

第二種算法,就是基於梯度提升的算法,有GBDT、XGBoost,再快一點的有LightGBM,我們這種算法叫SecureGBM,它是在LightGBM級別的基礎上改造而成的。

基於 LightGBM基礎上改造而成的這種算法,我們也是發表在19年的IEEE國際大數據會議上,大家看到左下角有一個截圖,紅色的框是百度自研的叫SecureGBM,藍色的框,LightGBM-(A,B)就是明文算法,我們算法最後的結果和同類的最好的明文算法去比,在沒有用任何加密的和普通的建模相同的條件下,AUC值的差距大概是在3%以內。

我們也比較了其他的一些明文算法,在這個圖裏邊是-A或者-B,它是用了一些加密的聯邦的一些算法去比AUC值,我們的算法都是比其它的算法會高一些,但我們會比明文的算法大概低三個AUC值,在3%以內。

第二個是它的運算速度,從這個截圖看到,對比了16,000個樣本,我們的算法和明文算法去比的話,我們的速度大概是明文算法的6倍,也就是明文算法如果用一分鐘的話,我們會用六分鐘,這個已經是非常好的效果了。

這個地方我們也提到,我們現在用的這個Paper裏邊是16,000個樣本,如果樣本增加到10萬個,或者再往上增加,我們這個算法的運算效率會更高。

百度「聯邦學習」戰略全佈局丨萬字長文

那麼我們SecureGBM和明文算法的LightGBM,雙方數據在一起,比較了在訓練集上的AUC值和F1值,大家會看到有一條紅線和一條藍線,在截圖裏面紅線和藍線絕大多數時候是靠在一起的,走勢是相同的,非常的接近。

説明我們的這個算法和明文的LightGBM的算法,在AUC值、在F1、在訓練集上和測試集上,達到了非常類似的一個效果。

百度「聯邦學習」戰略全佈局丨萬字長文

第三種算法基於深度學習,PaddleFL,是在我們百度自研的一個開源的深度學習框架飛槳的基礎上,研發出來的開源的聯邦學習框架。

下面是開源框架的github的網址,通過PaddleFL,使用人員可以很輕鬆的去複製和比較不同的聯邦學習算法,也可以在分佈式的大規模集羣裏面去使用。

這種PaddleFL主要用在深度學習算法裏邊,用在計算機視覺、自然語言處理和推薦算法的一些領域,也提供一些傳統的機器學習的訓練策略。

比如説像多任務學習,還有一些遷移學習、主動學習等等,我們底層也提供基於分佈式的訓練和Kubernetes的訓練任務的彈性的調度能力,可以進行全站開源軟件的侵入和部署,下面是基於我們的飛槳的一個的架構圖。

接下來是編程模型、參數服務器、到端側訓練和彈性調度,再往上是我們聯邦學習的訓練策略及應用。

聯邦學習策略這塊我們也有縱向的聯邦學習,剛才提到的PrivC的邏輯迴歸,橫向的聯邦學習,還包括DPSGD基於差分隱私的隨機梯度等等。

我們也有常態的一些機器學習,像遷移學習,多任務學習,主動學習等基於聯邦學習的任務,還有基於深度學習的自然語言處理、視覺、推薦這一塊的學習任務,都是在PaddleFL的基礎上來做深度聯邦學習的建模。

百度「聯邦學習」戰略全佈局丨萬字長文

PaddleFL的架構設計,圖的左邊叫編譯Compile Time,是首先通過聯邦策略,去設計一些算法策略,然後在中間設計訓練策略,再用分佈式的配置,合成以後,傳到中間任務的調度上面。任務調度再傳到參數的任務和訓練的任務上面生成了job以後,再傳到這邊運行。

運行這一塊有參數的服務器和worker,再下面是調度器,整個就會把服務提起來,然後進行分佈式的訓練,這是PaddleFL的架構設計。

同理,我們也有基於MPC的聯邦學習,分成三部分,一是圖右部分,基於數據的準備,首先有私有數據的對齊和數據加密及分發。

二是訓練和推理過程,和Paddle的運行模式一樣。首先要定義協議,在策略訓練和推理完成後,就會到這個圖的最右邊進行結果的重構。

這一塊就會把模型的結果或者預測結果,由加密方以加密的形式輸出,結果方可以收集加密的結果,在PFM工具中進行解密,再將明文的結果傳遞給用户,就完成了整個MPC的聯邦學習過程。

安全保證是金融企業最高優關注點

百度「聯邦學習」戰略全佈局丨萬字長文

我們先看看現有的模式,現有的模式只有幾個,在沒有用到聯邦學習的時候,狀態是自己的IDC機房的網絡和外界是隔離的,沒有聯通互聯網,數據不進不出,因為只用到自己的核心繫統的數據,數據是物理隔離的。

但是這個模式最大的問題,就是在它的建模過程中,會存在着一些天花板,比如剛才提到的KS值,如果做到0.35了,就再也不能再往上做了。

模型效果更多的取決於特徵工程,而他又沒有用過外面的無論是互聯網,還有政府,一些運營商的一些領域的數據,那麼一些風控也好,營銷的行為它是拿不到的,模型的上限是由多維度、多樣性來決定的,所以達不到很好的建模效果。

於是就衍生出來第二種模式,叫標準分的調用模式,標準分的第二個模式,它也是有自有機房,但是它的網絡變成不是隔離的了,而是單通道的,就是它的數據只進不出。

在網絡這塊,因為開了一個單向的通道,有可能存在一些被黑客攻擊的風險,這個標準分的調用也有一些弊端。

大家知道,進來的只是一些標準分,也就是説,外面的數據過來的可能就是一個變量或者兩個變量,它是一個高維特徵壓縮以後的、降維以後的一些特徵的輸入,每次輸入只有那麼兩三個特徵。

這種高維特徵壓縮降到兩三個維度以後,有非常多的特徵信息是損失了的,所以它提升的建模效果在信貸場景可能只提升那麼一兩個點,比如像KS值是0.35,提升到0.37、0.38就到了天花板了。

我們今天談到聯邦學習的模式,它的數據通道是雙通道的,雙方要進行梯度或模型參數的交換。

首先,雙方數據對上面的一箇中間節點要進行上傳,但是它的原始數據沒有出域,它的參數數據或者模型的參數或者梯度參數,是通過加密的方式來出域的。

從這個角度來看,因為它的網絡通道打開了,存在潛在的被黑客去攻擊的風險。梯度參數的話,從現在的業內的研究來看,也存在一些被反解,或者一些隱私被攻擊的方法。

還有一個,它有一個強烈假設,就是需要參與的雙方或者各方,需要滿足誠實、半誠實模型的原則,如果有一方有嚴重的欺詐,去改變了模型的一些參數,或者是一些遊戲規則,模型的安全也會受到一些挑戰。

這是聯邦學習目前和上面的現有模式、標準的模式相比,所面臨的一些優點和缺點。

百度「聯邦學習」戰略全佈局丨萬字長文

那麼這裏會就提到模型提效,模型提效是一把雙刃劍。現有模式下,在右邊的這樣一個方程式,目標標籤Y是來自於金融企業本身,它的X特徵也是來自於這家企業,企業只用自有的數據建模,沒有外部數據帶來模型效果提升,就會面臨天花板。

我們再看聯邦學習這種方式,剛才提到,通過梯度參數的交換來建立模型,那麼基本上雙方數據沒有降維,外部提升的最大好處就是,帶來的模型效果提升非常大,與明文相比的話,它的精度損失基本上還是比較小的。

但是,在和很多金融企業溝通後,知道它有非常大的短板,企業有各種各樣的顧慮。

1.建模的過程中,即使想用聯邦學習來進行建模,金融企業很多時候並不願意把自己的特徵放進來,但是可能只會將自己客户的ID和目標變量Y放進來,因為金融企業會覺得用聯邦學習來建模,有可能存在一些數據安全的問題。

2.他們也希望拿到一些數據以後,再做二次建模,以滿足金融監管的要求,因為在金融監管這一塊,特別是在信貸風控的場景,希望金融機構要自控這個模型本身,而不能把這個模型交給外部的機構去控制。

安全保證和數據提效前提下的得與舍

在數據的安全保證和數據提效的前提下,聯邦學習還要面對什麼樣的得和舍呢?

百度「聯邦學習」戰略全佈局丨萬字長文

第一個,從運算速度來看,現有的銀行在自己的機房裏面進行明文計算的數據建模,它的特點是運算速度很快,可以用像spark、Tensorflow、PaddlePaddle等分佈式技術去做這種很成熟的運算。

但是到聯邦學習就不一樣了,剛才提到,它的訓練速度至少會比明文計算,少則慢一個數量級,慢10倍幾十倍,也有慢兩個數量級幾百倍的這種可能性。

第二塊就是它現有的分佈式技術還不太成熟,這是他在速度這一塊可能需要去考量的。

第二個,從算法種類來説,明文算法它是基於Python的開源社區,算法生態非常多,上千種上萬種,頂級論文的開源代碼,基本上就是按天、按周來迭代,更新的頻次非常快。

但是在聯邦學習的算法過程中,要考慮到數據參數的加密,所以它的研發非常困難,我們的算法種類相對而言都是比較少的。業界現在能看到的也就是那麼幾種或者幾十種,並且也不可能把最新的算法研發出來用在聯邦學習這個領域。

第三塊,就是產品的應用性,因為現在基於明文數據的這種算法,AI開發平台有非常多,支持多種框架,還有它和數據的中台的融合,非常好對接。

那麼對純代碼方式來講,金融行業去使用時,因為金融行業很多用户也不是經常做coding,所以他的學習曲線比較難、比較高。

剛才也提到如果用代碼這種方式,它跟這個操作系統有些時候需要linux shell腳本方式進行交互,那麼它的安全性可能會存在一些缺陷。百度的度信平台在這一塊用純界面的方式,也面臨着一些開發的週期和實施的難度。這個是聯邦學習與建模要考慮的問題。

所以我們在考慮安全,在考慮數據對建模效果業務績效的前提下,我們在運算速度上,在算法的種類的選擇上,在產品的應用上,都做了一些權衡和一些損失,但有些時候這種損失和這種權衡是值得的。

百度「聯邦學習」戰略全佈局丨萬字長文

下面一點,就是百度金融專有云,如果是聯邦學習在我們的金融雲、專有云上面進行部署的話,我們還額外提供七重的數據安全保障。

這七重的數據安全保障在這個圖裏邊用1234567都標註出來了。一塊是我們提供異地的災備,我們在武漢、北京和上海有異地的百度金融雲專區。

在數據的交換過程中,我們會提供一些芯片級的算法級的加密,包括在網絡的通路上,也提供一些加密的傳輸,讓加密的數據被截取以後都是不可用、不可解的。我們參與方的數據在雲上的鏈路也好,在雲上的一些硬件的裏面,雙方都是互不可見的。

安全的數據脱敏方法和合規制度保障

在完成了整個建模的過程以後,比如説金融企業的數據要有用户要查處,最後模型在使用的時候,有一個數據的健全,如果沒有授權的話,是不可以去使用產出模型的。

除了聯邦學習以外,我們在整個雲上、在物理鏈路上、存儲量上、硬件上做了各種各樣的加密去保證安全,而不只是運用了聯邦學習技術本身,或者只是開發一個平台。

在和金融企業的溝通中,我們發現,即便雙方要進行聯邦數據的融合建模,也可以採取剛才説到的,雙方先有兩個數據寬表,然後再進行融合的聯邦學習。

百度「聯邦學習」戰略全佈局丨萬字長文

在生成這兩個雙方的數據寬表的同時,還可以採取一些更加安全的數據脱敏方法,用的比較多的就是K-匿名化,這個是保護客户數據隱私的一種重要方法。

我們希望雙方在生成數據寬表的時候,甲方和乙方都能夠採用類似於匿名化的技術,讓雙方的原始特徵數據脱敏得比較徹底,不能夠被反推。雖然聯邦學習本身也非常安全,在這個基礎上,我們能夠用更多的數據脱敏的方法。

右邊這一種也是類似的,我們會用差分隱私的一個方法,在數據集中裏面產生一定的噪聲,這種隨機造成它可以通過一些概率分佈前置來產生,這樣就在設計過程中很難去推斷出客户的一些隱私。

百度「聯邦學習」戰略全佈局丨萬字長文

和金融機構合作時,在數據的安全管控上,我們也會提供一整套的安全的合規的保障制度。

首先是從公司的治理層面,數據和流程層面及安全的能力層面,我們從不同的角度去看這家金融企業和它合作的另外一個互聯網企業,只要用到度信平台,我們會提供一整套的關於安全保障機制的建議。

還有一塊就是數據的生命週期安全,我們考慮到六個環節,數據的收集和產生要合規,我們有數據的分類分級和安全日誌。那麼在傳輸和傳遞過程中,有加密和傳輸的安全的監控。

第三塊就是存儲,在存儲的安全和數據的加密備份這一塊,也要考慮安全。

第四就是它整個數據的加工的環境,使用方和用户授權等等,也要保證安全。

第五個環節涉及整個的流通與共享,包括對內流通和對外流通,我們要考慮相關的安全性。

當我們使用完聯邦學習以後,也要有相應的動作,不要讓數據留存在雙方的服務器裏邊。整個的安全制度合規保障和數據的生命週期,都是我們在實踐中慢慢總結出來的。

對於整個聯邦學習,額外增加了一些針對金融行業更加安全的一些舉措和方法論。

我們也通過度信在這樣一個平台的實施過程中,慢慢把這種方法論傳遞給金融機構,傳遞給合作方,讓我們整個在運用聯邦學習的過程中,更加保證整個數據的安全,讓數據可用不可見。

雷鋒網雷鋒網雷鋒網

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 9519 字。

轉載請註明: 百度「聯邦學習」戰略全佈局丨萬字長文 - 楠木軒