作者 | 蔣寶尚、周蕾
8月7日-8月9日,2020年全球人工智能和機器人峯會(簡稱“CCF-GAIR 2020”)在深圳如期舉辦!CCF-GAIR由中國計算機學會(CCF)主辦,香港中文大學(深圳)、雷鋒網聯合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協辦,以“AI新基建 產業新機遇”為大會主題,致力打造國內人工智能和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。
8月9日上午,在「聯邦學習與大數據隱私專場」上,同盾科技人工智能研究院首席專家李宏宇博士做了題為「同盾智邦-知識聯邦平台:打造數據安全的人工智能生態系統」的演講。
李宏宇:同盾科技人工智能研究院首席專家,師從國際模式識別學會會士、芬蘭模式識別協會主席Jussi Parkkinen教授,相繼獲得復旦大學以及東芬蘭大學計算機科學博士學位。曾任同濟大學軟件學院副教授、博導。李宏宇博士在圖像處理和分類、生物特徵識別、OCR、機器學習和深度學習等人工智能的多個領域有着深厚造詣和應用成果,在國際權威學術期刊和一流的國際會議上發表了近80篇學術論文,發明專利20餘項,出版專著1部。
以下是李宏宇在大會的演講實錄,AI科技評論作了不修改原意的整理和編輯:
今天演講主題是《同盾智邦-知識聯邦平台:打造數據安全的人工智能生態系統》。那麼什麼是知識聯邦?作為一個新的概念,它背後代表着知識共創可共享。具體而言,通過知識的共創和共享,從而實現數據的可用不可見。
從知識的形成的過程來看:從數據到信息,再到知識,最後到利用知識形成決策,知識聯邦的目的是希望能夠利用各種知識,包括訓練出來的模型知識以及邏輯規則等已有的先驗知識。
我下面將從背景、相關概念和應用的場景分別探討知識聯邦。
背景:各種技術融合統一
人工智能的發展離不開數據的支撐,但是現在數據孤島是普遍存在的現象。例如,機構間存在數據孤島,企業內部也存在數據孤島。更有研究表明,現在有92%的企業內部存在非常嚴重的數據孤島的現象。
其實,解決數據孤島不僅是簡單地把數據彙集起來,還需要考慮數據安全問題。從最近兩年的數據泄露事件就能看出問題的嚴重性。所以,每一次產生重大社會影響的數據泄露事件都意味着數據安全和隱私保護的確是需要更嚴格的監管。
在此大背景下,我們也看到在國內一系列法規的進展,例如在今年3月份,最新版本的《個人信息安全規範》,以及央行的個人金融信息的保護技術規範,都能看出數據安全法規的進化明顯。
尤其是7月初的時候,《數據安全法》草案已經開始在徵求意見,標誌着一系列宏觀的政策在不斷地演變,國內對於數據的管控將會更加嚴格、更加全面。
“數據安全”的大環境下,數據隱私的各種問題催生了聯邦學習,其實,在過去的這些年來,無論是大數據還是人工智能,每個領域都有一些關於隱私計算的研究,這些研究雖然路線不同、技術方法不同,但是已經逐漸呈現融合統一的趨勢,也就是打造數據安全的人工智能。在這裏我們叫它知識聯邦。
如上圖所示,知識聯邦包含了兩層意思,一層是知識,一層是聯邦。其中,知識不僅包括模型、也包括邏輯規則或者模式。同時,知識也不是單純通過訓練學習出來的,它還包括經驗知識、先驗知識,這些可能是常識和行業領域知識,不需要再訓練學習。
如何把分散在不同的行業或領域裏的知識,充分地利用起來?這就是知識聯邦所要做的事情,簡單而言是通過數據安全交換協議,利用多個參與方的數據,進行知識的共創、共享和推理。最終的目標是要實現數據可用不可見。
注:不同於密碼協議,數據安全交換協議定義瞭如何在多個參與方之間進行數據交換的過程。
知識聯邦不是一個單純的技術方法,它是一套框架體系。這個框架體系可以根據聯邦發生的階段,劃分為四個層次。第一是信息層的聯邦,在數據轉換為信息的時候,把這些信息進行計算或者處理,涉及的技術是安全多方計算。然後通過某些先驗的知識,通過某些規則直接提取出有價值的信息,最後形成聯邦。
第二個是模型層的聯邦。也就是通常提到的聯邦學習,涉及到模型參數的更新。
第三個是認知層上的聯邦。對已有的模型訓練、學習,形成了一些淺層的知識,我們再將這些淺層知識聯合在一起,進行集成學習,從而得到更優、更好、符合特定應用場景的知識。
第四個是知識層上的聯邦。在不同的行業、不同的領域之間有很多知識庫,在不同領域、行業的知識庫上進行知識推理,就是知識層聯邦。所以知識聯邦不是單純的某一種應用方法,它統一支持了所有的安全多方應用,包括安全多方計算,安全多方學習,安全多方數據共享,以及聯邦推理、聯邦預測等一系列的綜合體。
知識聯邦在很多行業裏有廣泛應用的價值。例如金融領域,做為一個數據監管非常強的行業,知識聯邦在此領域的應用更為全面。知識聯邦的信息層可以用來解決多頭共債的問題,在模型層解決智能風控的問題,反欺詐和企業徵信可以分別在認知層和知識層解決。
先看多頭共債的問題。通常一個用户可能會與多個平台發生一些借貸關係,這時候就陷入了共債。一旦這個用户發生資金的問題,就有可能導致系統性的風險,甚至導致金融行業的大波動。解決多頭問題,通常的方式是能夠多頭評估個人真實的收入。換句話説,就是得到此人的累計的授信和實際已經發生的借貸。但是這樣有可能會泄露很多查詢隱私。
利用知識聯邦的查詢方式是:提出需求之後第三方向各方查詢,查詢的時候每家參與機構分別計算他已經得到的授信或風險,把風險通過密文的方式傳送給第三方,第三方再把所有的密文結構彙總,彙總之後返還給主動查詢方,如此便能保證數據隱私的安全。當然,在這個過程中需要進行一些加密或者同態加密的算法,但是現有很多同態加密的算法耗時非常大,如果能融合知識聯,就能夠使它的效能大大提高。
再看智能風控的問題。在解決這個問題的時候,知識聯邦方案中採用的是一種不經意傳輸的方案,讓沒有標籤一方的數據通過多種標籤組合的方式,然後形成多種結果,再把中間結果返還給有標籤的一方,讓它進行篩選,從而挑選有用的信息使用。
如上圖真實場景當中的數據示例。假定在數據對齊之後有20萬條70維的特徵和標籤,以及180維的B方的數據,這時如果只使用單方的數據,其KS值相對比較低,如果使用聯邦學習,哪怕是性能一般的方法,也會有明顯提升的。
下面介紹一個工業級的應用產品:智邦平台。隨着人工智能的演進,在過去每隔30年,人工智能都有一個非常大的變化,我們是處於AI2.0的時代,如果説這時的AI已經“稍微”有點感知,那麼未來知識聯邦會是AI3.0的必由之路,幫助AI獲得、使用更多的知識。
為了迎合未來的“趨勢”,我們打造出了智邦平台,做為知識聯邦的參考實現,目的是解決真實應用當中遇到的幾個問題:
首先是提供數據安全交換的協議,這是非常重要的一環,因為想知道聯邦到底安不安全,一種驗證方式是開源,另外一種方式就是需要非常清楚數據交換過程中發生了什麼事情。
第二個是解決了多方參與的數據問題,因為每家機構的數據都是有異構存在的,多元異構的問題是打通所有參與方,形成數據聯盟的痛點。
第三個是一站式產品閉環的問題。從特徵選擇、特徵預處理、數據預處理,到算法管理、安全保護,以及最後的模型發佈,這一系列產品流程的閉環。
總體上來講,智邦除了通用的功能和場景化的應用算法之外,底層包含了FLEX協議和數據沙箱,做為支撐平台的兩條腿,非常重要。
簡單看一下FLEX協議。第一個內容是特徵選擇,在特徵選擇的過程當中,都希望不要進行單方的特徵選擇,否則對方的特徵無法發揮它的價值。平台提供了兩種特徵選擇的方式,性能明顯是要比只使用單方的數據進行特徵選擇的效果好很多。
另一個內容是樣本的安全對齊。樣本對齊要求保護交集外的數據,平台提供的方式能夠做到這一點。而在真正的應用當中,還有更嚴格的要求:參與方都希望保護交集內的數據,所以平台提出一種方案叫做雙盲對齊。
除了FLEX協議,平台的另外一條“腿”是數據沙箱。它解決的問題是如何把多元異構的數據標準化,然後將統一的數據進行接入。面對“不同的參與方有不同的結構數據,甚至字段定義、命名規則”的問題,可以通過沙箱可以快速實現標準化的處理。另外,沙箱裏面也實現了數據分類分集,即根據不同的類型、不同的應用場景的數據,賦予其不同的脱敏加密方式,然後統一加密脱敏的方式,最後保證輸出的所有參與方數據都保持一致。
同時,沙箱是一個獨立的組件,它能夠對多個參與方之間的數據進行虛擬的融合,從而實現安全的多方數據共享。
回過頭來看聯邦生態中涉及到的角色,有兩大類。首先是數據提供者,其次是數據的使用者,包括模型的設計者和模型的使用者。一個真正的聯邦生態會兼顧數據的提供者和數據的使用者兩方,即不會讓數據的提供者擔心數據的真正使用方是誰,模型的設計者是誰。
聯邦如何激勵參與方加入生態呢?其實所有不同的參與方都有自己的需求,例如數據提供者的原始動力是通過數據進行價值變現、價值最大化。模型的使用者的原動力來自於提升核心競爭力的渴望,同時希望擴大行業影響力。
同盾科技成立於2013年,總部位於杭州。是一家專注於做智能分析與決策的公司,目前已經為金融、保險、互聯網、政務等行業服務了上萬家企業客户。
同盾科技一直作為獨立第三方的角色,持續在人工智能、雲計算、大數據分析等方面做了很多的創新。
在歷年的發展過程當中,同盾科技也持續得到了政府、市場以及投資機構的認可,在今年的時候,成功入選了國家科技創新2030“新一代人工智能重大項目”。
同盾一直以來把人工智能技術的創新與應用作為戰略重點,我們在2018年專門成立了AI實驗室,在2019年進一步升格成為人工智能研究院,以人工智能研究院為核心載體,穩步推動人工智能戰略的佈局和實施。在今年初又在美國硅谷成立了美國的AI實驗室。
團隊的成員非常專注於人工智能底層技術的研究和應用的探索,有着非常豐富的工作經驗。例如,團隊的領軍人物李曉林教授是美國公立常春藤名校佛羅里達大學的終身教授,創立了美國首個國家級深度學習中心,現在專職在同盾工作。
此外,同盾科技背後還有一個非常強大的專家顧問團隊,有浙大的潘雲鶴院士,還有復旦的楊珉教授,他是國家973首席科學家,也是同盾移動安全領域的首席科學家。
同盾科技在產學研合作方面已經做了非常廣的部署,已經跟浙江大學、復旦大學、西北工業大學建立了長期的合作,也跟很多大學的金融機構,例如招聯、建行,成立了聯合的實驗室,主要聚焦在一些創新性的研究和聯邦學習的落地應用。
演講結束後,李宏宇也接受了雷鋒網的採訪,以下為雷鋒網與李宏宇的對話實錄。
問:目前學術界會有哪些標準去衡量聯邦學習的效果?
李宏宇:聯邦學習衡量好壞,其實要分兩個方面。
一方面是説,它的性能在聯邦之後和之前相比,是否有本質上的大幅提升?就像我們在演講中提到的,如果單純用一家參與方的自有數據去訓練學習,可能它只能達到ks值0.35;但借用了其他參與方的一些數據優勢之後,可能會達到0.37甚至更高。
此時從指標上來講是沒有變化,但從性能對比上來講,它一定會是遠遠大於那種使用單方數據的情況。當然這裏面取決於其他參與方的數據質量如何,就是所謂的數據貢獻,它能達到什麼級別。同時,它一定不會超過雙方數據合在一起後達到的性能效果。
另一方面是安全問題,這時候需要對數據流通過程審計:到底流通了什麼數據?在整個數據流通過程當中是否安全合規?是否符合個人信息保護規範和數據安全法的要求?
具體來講,不同機構可能各自在數據流通過程中採用了不同的加密安全策略,所以沒有一個固定的標準。這也是未來兩年我們急需完成的事情,推動行業標準、國家標準,確定聯邦過程、安全認證等級等。
問:有研究指出,聯邦學習方法中梯度信息的泄露可以反推出部分數據,請問是有這樣的情況存在嗎?有沒有相應的對策?
李宏宇:如果是純粹的聯邦過程,利用梯度之間的迭代,那是容易被攻擊泄露一些隱私信息,這是可以反推的——但真正的應用當中不會這麼簡單,除非對方是一個非常好的黑客,同時懂得網絡安全和底層模型加密所有安全策略,否則很難做到。
在數據流通全過程中,有做了幾段數據加密過程,在數據預處理時就已加密脱敏。訓練過程中又對模型的梯度參數進一步同態加密。之後傳給聯邦域,又要做非對稱加密的網絡通道傳輸——這是一層套一層的保護殼,到最後才保證真正的產品應用。
如果拋開這些東西,只是在理想的實驗環境下,比如拿一張圖片做所謂的聯邦訓練,這過程中會有梯度產生的隱私泄露,等於是明文數據直接用。但在真實的場景當中,尤其是在金融行業裏面,是不可能直接拿着這些明文數據直接用。也就是説理論層面上會有這個情況,但實際應用的層面上不會這樣簡單直接被攻破。
問:現在聯邦學習發展很快,可以説它是個成熟的技術了嗎?
李宏宇:聯邦學習不僅僅是説聯合建模這一件事情,其實早期已經有聯合建模的方式了,現在聯邦學習是用一種更安全的方式、走線上平台來實施聯合建模。
技術是否成熟到可以應用的級別?我們同盾的智邦平台就是非常成熟的工業級應用產品,得到了合作伙伴們,尤其是大型金融機構的一致認可,產品不需要他們再做任何二次改造。
問:智邦平台推出以來,合作對象主要是哪一些類型的公司?或者側重哪些業務的應用?
李宏宇:金融裏最多的一種是消金、小額貸這種公司做風控,客户羣體特徵非常鮮明,他們只有少量的自有數據,維度特徵有偏差,屬性維度也不可能很多種,更需要藉助第三方的數據提供方補充,提升模型整體效果。尤其是在同盾的業務體系當中,原來很多客户都是通過聯合建模的形式來對外提供服務,現在他們都已經轉向了智邦平台。
第二種更多的是銀行這種大型金融機構,他們要麼不參與,要麼就搭建自己的平台,完成整個生態的搭建。
現在很多大型銀行,內部數據孤島問題很嚴重,子公司之間往往都因為數據安全而無法充分集成和共享數據。這個時候他們更想要採購一個大的平台,完成自有生態裏的補充,打通所有數據孤島,解決數據安全問題。
問:聯邦學習在同盾科技的戰略佈局中是怎樣的地位?
李宏宇:聯邦學習的確是同盾的生態體系中一個戰略重點項目,也是我們未來提供智能決策和分析服務的基礎設施,我們也會逐步把原有生態裏相關業務通過智邦平台對外提供數據安全的智能服務。
我們的目標是打通所有的生態體系,在數據提供者和數據模型使用者之間的建立隔離屏障,讓數據提供者不需要關心誰來使用,數據模型使用者不用關心數據到底分佈在哪裏。
問:今年開始,金融科技開啓新十年,您預測接下來這幾年會有什麼新趨勢?或者您會用哪些關鍵詞來描述?
李宏宇:近年來,我國的金融科技發展在國際上算是領先,但也面臨着“野蠻生長”的問題,現在已經到了要收緊、趨嚴監管的狀態了。這個狀態下,一些金融公司的自有數據明顯不能夠支撐智能化升級,它們就面臨着生存的壓力。
比如貸前審核,如果風控模型做得不夠好,就會產生一系列隱患,它們一定希望開放,但同時安全隱患要消除。最後結果一定是通過技術來實現安全和開放的融合。
在研究層面上,模型算法可能並不是最關鍵的,應用落地、解決問題才是。人工智能也好,創新性的安全算法研究也好,其實都會不斷更新,但我認為這都不會是行業裏的主題,主題應該還是安全、開放和融合。