兩個百萬富翁在街上相遇,他們都想知道誰更富有,但又不願意讓對方知道自己擁有的真正財富。如何在沒有第三方的情況下,讓對方知道誰更有錢?
這是中國科學院院士姚期智在1982年提出的“百萬富翁”設想。隨着雲計算、人工智能技術的不斷髮展,數據成為了繼土地、勞動力、資本、技術之外的第五大生產要素,其價值不言而喻。
與此同時,無論是個人還是企業,對於數據的隱私保護也愈加重視。此外,我國的《數據安全法》(草案)、《個人信息保護法》(草案)等代表性法律法規相繼出台,嚴格要求在數據使用過程中做好隱私保護,例如不允許數據離開本地、不允許未經授權使用個人數據等等。
然而隨着數字化進程的不斷深入,數據融合應用成為了關鍵一環,如何打破數據保護與數據價值挖掘之間的矛盾,成為了行業亟需解決的痛點。
姚期智院士針對數據領域所提出的“百萬富翁”設想,正一步一步的走進現。
事實上,就在姚期智提出“百萬富翁”設想的同時,姚期智還發布了一個名為“多方安全計算”(Secure Multi-Party Computation,簡稱MPC)的理論框架。然而,由於算力等因素的制約,MPC並未在提出之初,就凸顯出其價值。
隨着,IT基礎設施的不斷髮展,數據融合應用趨勢不斷加快,以MPC為代表的隱私計算再次“躥火”。
學術界,近年來有關隱私計算的學術會議和論文呈現爆發式增長,產業界則也愈發關注隱私計算技術和產品,各企業都爭相投入到隱私計算的研發和產品化工作。
中國互聯網金融協會發布的《金融業數據要素融合應用研究》的報告中,將多方安全計算、聯邦學習、數據脱敏、差分隱私、可信計算列為可用於支撐金融業數據要素更好融合的五種技術。
Gartner則預測,到2025年,將有一半的大型企業會通過隱私計算賦能多方數據合作場景中的數據融合應用。
在騰訊高級執行副總裁看來,隱私計算的興起,為人們提供了在數據安全合規、融合應用過程中尋求發展和安全之間平衡點的技術路徑和解決思路,其正在成為未來數字治理的最有效路徑之一。
隱私計算到底又是什麼東西呢?據騰訊近日發佈的《隱私計算白皮書》(下稱:白皮書)解釋:隱私計算(Privacy Computing)是一種由兩個或多個參與方聯合計算的技術和系統,參與方在不泄露各自數據的前提下通過協作對他們的數據進行聯合機器學習和聯合分析。
説的文藝一點,隱私計算可以讓數據相知但並不相識。
對於個人消費者而言,隱私計算的應用可以保障個人的信息安全;對於企業和機構,隱私計算不僅可以保護企業在採集、存儲、分析等過程中的關鍵信息、商業秘密等數據,還可以促進企業的跨界數據合作;而對於政府而言,隱私計算在提升了社會數據安全保護的同時,還可以將數據要素融合從而推動城市產業的數字化轉型進程。
數智化時代,隱私計算需要具備哪些特性?隨着國家、地方、企業一級個人對於數據安全愈加重視,數字化進程又依賴於數據的融合應用。
因此,在騰訊數據平台部總經理蔣傑看來,隱私計算需要以更加安全的方式打通數據孤島,橋接多方數據,以統一的數據處理引擎更高效地挖掘數據價值,並以智能化的方式驅動整個數據處理閉環,為開發者、企業、以及政府的數字化、智能化升級打下堅實基礎。
就在此洞察之下,騰訊發佈了第四代數智融合計算平台“騰訊大數據-天工”
據蔣傑介紹,在安全方面,“騰訊大數據-天工”採用自研隱私計算技術,從機器學習到大數據分析為各個場景提供全方位保護,去中心化的架構則能避免單點隱私泄露風險。除此之外,在安全性上,“騰訊大數據-天工”可以提供3072bit(金融行業要求的是2048bit)業界最高強度加密和TEE硬件雙保險,最大限度確保數據安全。
憑藉該技術,騰訊大數據相關團隊獲得iDash 2020世界隱私計算大賽冠軍,安全性能領冠全球。據雷鋒網瞭解,金融級安全強度的騰訊隱私計算技術已廣泛應用在醫療、金融風控、數字政務等眾多領域。
在此基礎之上,鑑於大數據和人工智能二者技術本質類似,“騰訊大數據-天工”平台通過解決大數據和人工智能計算框架的統一,從而更好地適配CPU、GPU、NPU、FPGA等硬件。包括通過構建大數據、AI基礎算子,統一元數據用於執行優化,統一批、流、圖計算形態來統一計算引擎,並及時編譯,代碼生成適配異構硬件。
在智能化運維方面,騰訊構建了平台大腦,從快速發現大數據運行問題到主動發現問題,再到主動解決問題,以此來推動,推動萬億級大數據分析逐步實現“自動駕駛”。
據騰訊數據平台部副總經理劉煜宏介紹,平台大腦預計可讓數據中心研發效率提升60%,運營效率提升50%,平台服務質量提升80%。
在蔣傑看來,騰訊大數據平台的一個主要優勢,是騰訊自身即擁有海量的數據規模,這使得騰訊大數據平台在推出的時候,就已經經過海量數據的驗證。數據顯示,目前,騰訊大數據平台日接入消息量超過55萬億,日實時計算量超過65萬億,平台整體算力超過500萬核,日分析任務達到1500萬。
雷鋒網瞭解到,自2009年開始,騰訊就開始深耕海量大數據處理領域,並在過去十餘年裏完成了四代更迭。
第一代是2009年-2011年,騰訊大數據主要依託Hadoop生態,圍繞離線計算模式化構建出能夠穩定支撐小時/天級別的計算任務數據處理平台;第二段是2012-2014年,騰訊大數據通過引入Spark、Storm等實時計算處理框架,讓大數據平台處理性能邁入毫秒級別;第三代是2015年-2019年,騰訊大數據開始朝着機器學習發展,其自研機器學習框架Angel成為國內第一個從Linux基金會畢業的頂級AI項目,並推動國內大數據處理正式進入機器學習時代。
而對於第四代產品的推出,蔣傑表示,也將繼續把技術開源,回饋給開源社區,讓業界更多的朋友和同行們瞭解騰訊的技術增長。“也希望有興趣的朋友加入到我們的項目中,同樣也可以加入到我們團隊中一起開創第四代系統的研發,或者未來的發展,或者是開拓之路。”
隱私計算應用需要數據立法工作完善對於隱私計算的發展,《白皮書》中表示:隱私計算技術正處於快速迭代和發展的階段,目前仍在實現用户授權同意、數據存儲安全、信息主體權利保障等關鍵合規要求的有效性上存在爭議,這些爭議在一定程度上限制了隱私計算的推廣應用。
從技術層面而言,隱私計算實現的數據保護功能與國內外數據保護相關立法精神高度契合,具有廣闊的發展前景。但在全球數據合規監管日趨嚴格的大背景下,隱私計算仍具有較大提升空間。
比如在用户授權同意方面,根據我國《網絡安全法》及《民法典》的規定,數據處理者在處理數據時應公開收集、使用規則,並經用户同意。從理論上而言,數據合作方通過隱私計算技術實現數據分析與建模,不需實際流轉數據,且處理過程中的數據都進行了匿名化處理,或不需要獲得用户授權同意。
但實踐中,在原始數據採集階段,數據合作各方仍需獲得用户授權同意。此外,由於個人信息的匿名化標準尚存爭議,因此做好告知同意的授權管理,對強化企業數據合規仍具有重要意義。
同樣在盧山看來,數字治理的探索是一項系統性工程,僅僅依靠單一技術無法滿足當前和未來複雜的治理需求,需要技術、法律、制度等都不斷的演進和配合,才能找到適應數字社會發展的治理路徑。
而在當前這一階段,騰訊數據平台部AI平台部總監陶陽宇表示,不妨讓子彈再飛一會兒。(雷鋒網)