中新網5月11日電 5月6日,同盾科技人工智能研究院團隊在院長、佛羅里達大學終身教授李曉林帶領下,推出《知識聯邦白皮書》。白皮書中對知識聯邦的背景、定義、平台、挑戰、場景應用以及未來發展前景進行了全方位、全景式剖析,並對人工智能3.0時代進行展望。與此同時,同盾科技人工智能研究院自主研發的基於知識聯邦體系的智邦平台V2.1正式發佈。
在原有平台基礎上,智邦平台V2.1版升級了安全功能、安全交換的算法和策略。同時增加了面向數據安全交換的標準產品,極大地簡化數據對接和融合的成本。此外,結合公司自身豐富的風控/營銷模型分析優勢,提供了基於樹模型/邏輯迴歸/深度神經網絡等快速部署的聯邦算法。
數據分級與脱敏
據介紹,通常情況下,安全級別越高則意味着整體效率的降低,對此智邦平台根據個人信息的類型、敏感程度、處理方式等對個人信息進行分類,對不同敏感等級的隱私數據進行不同層級的隱私保護,從而來平衡安全和效率的問題。比如對不同敏感等級的數據採用不同的脱敏方法,脱敏方法有部分屏蔽、泛化、哈希加密等。同時要保證去標識化和脱敏後的各方數據具有一致性。
智邦平台的數據安全性可以從數據完整的過程域進行評估,包括數據導入、數據存儲、數據處理、數據傳輸、數據共享、數據溯源、數據銷燬。比如在銀行的風控場景,用户數據的敏感等級較高,但又希望能結合其他銀行或其他機構的數據特徵進行特徵維度的補充從而優化建模效果。在各機構進行聯邦學習時,樣本對齊、特徵選擇、模型訓練、預測等均保證數據“可用不可見”。在樣本對齊環節,使用Hash函數、對稱加密算法安全快速計算參與方交集,保護交集外數據不泄漏。智邦平台設計的業務場景是至少一方數據量級為億級別,常規的樣本對齊方式傳輸量和消耗時長非常巨大,目前智邦平台在相同資源下,運行效率可以提升近百倍;在模型訓練和預測環節,根據模型的特點採用一次一密、同態加密的方式來對梯度或模型參數進行加密,一次一密的密鑰使用Diffile-Hellman密鑰交換協議、安全偽隨機數發生器生成。
三級網絡安全域的劃分
智邦平台將數據聯邦劃分為三個的安全域:數據提供方私有域、數據交換域、聯邦聚合域。私有域和交換域都在參與方本地,私有域持有所有原始數據;數據交換域持有脱敏後用户身份信息(用户姓名、身份證號或手機號等)及原始特徵和標籤;聯邦聚合域不持有參與方數據,僅接收加密後的模型參數或梯度信息等,並進行聚合計算。域邊界處部署防火牆,通過防火牆策略控制白名單 IP 網段接入訪問。在不同域之間設置策略進行控制,比如在私有域中的數據放入交換域前需要按聯邦約定的方式進行脱敏、匿名化處理,同時,交換域和聯邦域通過 CA 證書雙向認證,且採用加密信道對數據發送和接收進行加密保護。智邦平台提供交換域和聯邦聚合域的實現;私有域由參與方提供,一般為參與方數據生產環境。交換域和私有域部署在參與方本地,聯邦聚合域部署在第三方機構。
安全的第三方
智邦平台採用的是弱中心化的分佈式方法,相對強中心化的方式,弱中心化更能保證數據的安全和合規。強中心化方式第三方通常會聚集保存所有參與方的數據,且計算和學習都在中心節點完成,這種方式有數據安全隱患。另外,市場上還有采用一些完全去中心化的方法來保證數據安全,但去中心化模式沒有中心節點,需要所有參與方互聯互通。當節點規模較大時,通信成本很高,達成共識效率低下。
相較而言,智邦平台的弱中心化模式中原始數據是保留在本地的,且不會離開本地,計算和學習仍然發生在本地,第三方的存在只是一個協調和仲裁作用,它不會觸碰和保存所有的原始數據,更多地是對參與方進行知識信息聚合,並對參與方的數據質量和貢獻進行仲裁。事實上,第三方可以是虛擬的,只是一個可審計和可追溯的機器。在數據參與方都達成共識的情況下,虛擬第三方可以部署在更擔心數據安全的一方的私有云上,也可以部署在多方都認可的公有云或專有云上。第三方也可以是實體機構,一般是一箇中立的、可信的機構。可信第三方要保證在任何情況下都不會撒謊,也不會泄露任何不該泄露的信息。