圖片來源@視覺中國
文丨陳根
隨着雲計算、物聯網與大數據等技術的不斷髮展,信息系統服務中針對用户數據的收集整理、分析預測手段不斷成熟。各種基於位置跟蹤、行為偏好記錄所產生的定向服務,為人們日常生活提供諸多便利的同時,也越來越多得引發了隱私關注。
一方面,人們通過社交媒體進行信息交換與自我表露,在網購平台進行購買行為,利用智能交通系統實現實時路況查詢。在參與這些在線服務的過程中,產生的大量數據讓人們不可避免地面臨隱私泄漏問題。
另一方面,數據作為現代商業與個人的核心價值與重要資產,正在重新塑造人類生活的方方面面。IDC Research統計,2019年大數據和分析市場的銷售收入約為1870億美元。但由於數據本身可複製,易傳播,一經分享無法追蹤,數據資產的確權困難。隨着數據隱私監管日益加強,商業化被嚴重製約。
正是在這樣的背景下,隱私計算站在了隱私保護的“風口”上。
隱私保護之痛數字經濟時代下,數據作為生產要素的重要性日益凸顯。加上數據的頻繁泄露,數據隱私安全成了時下亟待解決之痛。而現有的隱私保護主要從信息處理過程中的隱私保護、隱私度量與評估兩個方面入手。
從信息處理過程中的隱私保護方法來看,主要分為訪問控制技術方法、信息混淆技術方法、密碼學技術方法三類。
訪問控制技術通過制定信息資源的訪問策略以保證只有被授權的主體才能訪問信息,從而實現信息的隱私保護。近年來,多個基於訪問控制的隱私保護方案相繼提出。比如,基於強制訪問控制(MAC)模型的高可用智能卡隱私保護方案;基於自主訪問控制(DAC)模型的外包數據存儲隱私保護方案;基於角色訪問控制適用於多場景的隱私保護的數據挖掘方法等。
信息混淆技術是基於特定策略修改真實的原始數據,使攻擊者無法通過發佈後的數據來獲取真實數據信息,進而實現隱私保護。其中,k-匿名、l-多樣性和t-近鄰等多種匿名化技術通過將用户的原始數據隱藏到一個匿名空間中實現敏感信息的隱私保護。
密碼學技術是利用加密技術和陷門函數,使攻擊者在無法獲得密鑰情況下不能得到用户隱私信息。為了保護雲計算中用户的隱私信息,研究人員出了同態加密的概念,基於同態加密而構造了隱私保護的空間多邊形查詢方案。
但無論是訪問控制技術方法、信息混淆技術方法、密碼學技術方法的隱私保護方案都主要是針對特定場景局部數據集的具體算法,缺少針對特定場景動態數據集的算法框架,更缺少適應多場景動態數據集的普適性算法框架。此外,針對多媒體數據需要多個隱私保護算法的組合,而目前也缺少成熟的方案。最後,將不同隱私保護算法互相疊加以獲得更好保護效果的方法也有待開展研究。
隱私度量與評估通常從披露風險和信息缺損兩個角度對隱私保護的效果進行度量。事實上,現有的隱私度量都可以統一用披露風險(Disclosure Risk)來描述,即攻擊者根據所發佈的數據和其他背景知識可能披露隱私的概率。通常,關於隱私數據的背景知識越多,披露風險越大。信息缺損則表示經過隱私保護技術處理之後原始數據的信息丟失量,是針對發佈數據集質量的一種度量方法。
此外,隱私度量與評估的應用領域主要聚焦在社交網絡、位置服務、雲計算等方面。在社交網絡領域方面,研究人員提出了針對網頁搜索中基於混淆技術的隱私保護方案,對用户隱私進行了量化。在考慮用户意圖不同時每個個體不同的搜索行為,研究者設計了一個通用性工具,對基於混淆技術的隱私保護方案進行隱私度量。
在位置服務領域,有研究人員提出關於位置隱私保護機制的框架。該框架利用確定攻擊模型以及敵手的背景知識,通過信息熵等方法來描述攻擊過程的精確性、確定性、正確性,從而實現隱私保護效果的度量。在雲計算領域,為了保護雲端的數據隱私,有研究人員提出了一種基於單個關鍵字的可搜索加密方案,適用於多個數據所有者上傳數據、多個用户訪問數據的應用。
然而,上述各類隱私度量方案缺乏對隱私概念的統一定義;其次,隱私度量隨信息接收主體、擁有數據量大小以及場景動態變化,目前缺乏隱私的動態度量方法;第三,信息跨系統傳播,缺乏不同系統隱私度量的一致性、隱私信息操作控制的形式化描述方法,不能支持跨平台的隱私信息交換、延伸授權等動態保護需求。
綜上所述,現有的隱私保護以及隱私度量方案零散孤立,還缺乏隱私信息操作審計和約束條件的形式化描述方法。
尚未有將隱私保護與隱私侵犯取證追蹤一體化考慮的方案,因此目前無法構建涵蓋信息採集、存儲、處理、發佈(含交換)、銷燬等全生命週期各個環節的隱私保護和隱私侵犯取證追蹤的技術體系。而隱私計算的誕生則突破了現有隱私保護的侷限,成了數字時代下隱私保護的風口。
隱私計算離我們並不遙遠隱私作為一種敏感信息,是大數據的重要組成部分,隱私保護則關乎個人、企業乃至國家利益。但是,含有隱私的信息會在網絡中傳播、在各類信息服務系統中存儲、處理(編輯、融合、發佈和轉發)。
隱私計算是面向隱私信息全生命週期保護的計算理論和方法,具體是指在處理視頻、音頻、圖像、圖形、文字、數值、泛在網絡行為信息流等信息時,對所涉及的隱私信息進行描述、度量、評價和融合等操作,形成一套符號化、公式化且具有量化評價標準的隱私計算理論、算法及應用技術,支持多系統融合的隱私信息保護。
隱私計算涵蓋了信息所有者、蒐集者、發佈者和使用者在信息採集、存儲、處理、發佈(含交換)、銷燬等全生命週期過程的所有計算操作,是隱私信息的所有權、管理權和使用權分離時隱私描述、度量、保護、效果評估、延伸控制、隱私泄漏收益損失比、隱私分析複雜性等方面的可計算模型與公理化系統。
從技術理論來看,隱私計算主要分為三大技術路線,即密碼學、可信執行環境、聯邦學習。其中,密碼學是以安全多方計算(Secure Multi-party Computation)、同態加密(Homomorphic Encryption)、零知識證明(Zero-knowledge Proof)等代表的隱私計算技術。
可信執行環境(TEE)通過硬件技術來對數據進行隔離保護,將數據分類處理。支持TEE的CPU中,會有一個特定的區域,該區域的作用是給數據和代碼的執行提供一個更安全的空間,並保證它們的機密性和完整性。
聯邦學習則是近些年新崛起的新興人工智能技術,在2016年由谷歌最先提出,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多個參與方或多個計算節點之間開展高效率的機器學習。
不可否認的是,隱私計算技術路線雖有差異,但密碼學對於隱私計算的影響依舊舉足輕重,密碼學理論研究成果也影響着隱私計算技術的進展。
由於隱私計算不泄露原始數據,因此可以在保護數據安全的前提下,實現多個維度數據的跨界融合。這將有助於破解數據保護與利用之間的矛盾的優勢,也越來越受到市場的關注。Gartner發佈的2019年技術炒作週期(hype cycle)曲線報告中,就首次將隱私計算列為處於啓動期的關鍵技術。
隱私計算離我們的生活並不遙遠。
2016年,蘋果公司在全球開發者大會上首次提出了差分隱私技術(Differential Privacy)。從iOS 10開始,蘋果使用差分隱私技術,在個人使用模式的小樣本中注入數學噪音。在不影響個人隱私的前提下,幫助發現大批量用户的使用模式,從而增強用户體驗。
從2018年開始,國內的大型科技公司接連入局,資本市場也保持高度關注。這條賽道常常被認為藴藏着新的平台型機會——在滿足數據合規的基礎之上,誰能率先實現數據源的有效融合,幫助需求方高效地提取可用數據,進而釋放數據價值,誰就有成為大平台的機會。
此外,2016年底,工信部發布的《大數據產業發展規劃(2016-2020年)》提出,支持企業加強多方安全計算等數據流通關鍵技術的攻關和測試驗證。2019年9月,工信部發布《工業大數據發展指導意見(徵求意見稿)》,提出在工業領域積極推廣隱私計算技術以促進工業數據安全流通。這也足以見得隱私計算的潛力之大。
數字價值釋放的突破口當然,由於隱私計算技術發展仍不完善,因此也面臨着一些問題。
一是隱私計算技術性能還難以滿足大規模商用要求。雖然目前隱私計算的性能已經大大提升,但由於其加密機理複雜、交互次數多,當流通的數據量較大或結構較為複雜時,計算效率問題仍然未能解決。
其中,在隱私信息的生命週期中,受益於密碼學發展,隱私的加密化、匿名化和脱敏技術都已經非常成熟,可以大規模應用在隱私獲取、儲存、流轉等環節中。但大數據時代的到來,讓隱私數據的處理成為了一個難題:大規模的加密數據處理一定會導致計算性能下降,而非加密數據處理又極大概率會導致隱私信息的泄露。
二是隱私計算技術市場難以迅速培育。相對於其巨大的市場前景,目前隱私計算技術的市場還遠未成熟,市場環境的培育也具有較大的難度。一方面,由於隱私計算技術複雜且常常呈現“黑盒化”現象,大部分用户對隱私技術難以理解和信任。另一方面,隱私計算處理的對象往往是敏感的數據資產,試錯成本大,從而更加增加了用户的接受成本。
三是現有法律法規未對隱私計算地位進行明確定位。由於隱私計算僅僅避免了原始數據轉移的過程,但仍然完成了基於多方數據的計算,使得其在某種程度上依然破壞了消費者的隱私。這也成為了制約隱私計算發展的無法迴避的問題。
但顯然,這些技術的困境在時間的加持下終將被解決。事實上,數據隱私是進入數字社會最先需要解決的問題。隱私計算技術在當下恰逢其會而且前景深遠,將為數據隱私保駕護航並創造一種全新的“數據交易”龐大市場,也會成為實現數據價值釋放的突破口。