隨着數據經濟不斷髮展和大數據技術深度應用,數據日益成為數據經濟時代下新的重要戰略資源和生產要素。數據天性就是流通的,在安全條件下的開放、共享和利用,能夠極大地提高資本、技術、知識等其他生產要素的利用效率和結合對接,有效地推動管理、組織、制度和技術的不斷創新。而數據泄露的風險是阻滯數據流通最主要的障礙之一,其所造成的後果導致各方對數據的上傳流通採取過於保守的態度,因噎廢食。
2015 年 8 月,國務院發佈的《促進大數據發展行動綱要》明確表示,要“引導培育大數據交易市場,開展面向應用的數據交易市場試點,探索開展大數據衍生產品交易,鼓勵產業鏈各環節市場主體進行數據交換和交易,促進數據資源流通,建立健全數據資源交易機制和定價機制,規範交易行為”。
政府鼓勵數據資源的流通和交易,是在確保數據安全下進行的。因此,建立一個安全、可靠、合規、高效的數據流通機制,是我國數據經濟發展新形勢下的迫切需求。
一、數據流通的常見場景
1.1 單數據源對外開放模式
以單個公司、組織為主體,向數據需求方單向開放自身的數據。數據類型主要是營銷數據、互聯網數據和政務數據。需要指出的是,數據對外開放需要做的工作很多,如數據的脱敏和去標識化,合規支持,對用户的認證,算法和結果分析,監管接口等等。單一數據源對外開放的成本和技術難度都很高,導致很多數據源止步於此。
1.2 組織內多部門數據共享模式
主要是大型集團公司、組織機構內部的數據共享,包括總部與分部、決策層和執行部門、各部門之間和公司與單個具體員工等。組織內部之間的數據流通能夠有效提高業務效率,但是在實踐中會面臨諸多障礙,諸如員工跳槽或者以各種動機私自帶出數據;部門管理以業務為導向、架構獨立,會出現各部門推諉扯皮、不願承擔風險現象;跨國公司內部的數據流動涉及不同國家地區的數據跨境法律政策。
1.3 不同組織間共享數據的模式
不同機構、組織進行短期的項目合作,需要對各個成員單位進行數據共享。這種第三方外包服務通常需要對方的核心業務數據,這就使得各方之間普遍存在數據泄露的風險。
1.4 數據開放的要求
在上述或者任何其他數據流動的場景中,本質問題是數據開放缺乏相互的信任基礎和機制以及違約懲罰,建立各方能夠信任的數據安全流通平台,才能從根本上解決數據共享的信任問題。目前,傳統企業對數據開放的訴求主要有幾點:數據安全,即在開放數據時能夠有效保證數據安全,避免數據泄露;應用場景,數字經濟下的海量數據在開放和流通中不斷積累,如何能夠在更多的場景下對數據實現更有效地利用;數據定價,基於網絡空間的虛擬數據,結構複雜類型多樣,如何衡量其安全、商業、社會價值並建立規範的數據定價體系;算力支持,對於數據的接受、判斷、分析和處理需要足夠的技術儲備和安全的技術環境。
二、雲際數據交易平台
基於此,我們提出了具備原始數據不可見、良好的加密和追溯機制、安全數據沙箱和可不斷迭代更新的雲際數據交易平台。雲際數據交易平台的原型源於雲際合作模型,是一種不同架構雲服務之間的協作框架,這種模型框架應用到數據開發服務中就是雲際數據交易所,通過各方達成的共同協議和行為規則,實現不同機構之間的協作和數據開放共享的(見圖 1)。
圖 1 雲際數據交易平台示意圖
平台建構在多個數據源所提供的數據節點上,數據需求方提供自己需求算法支持,在平台上安全合規、便捷自由地處理數據提供方的原始數據,並得到算法結果。這是平台最重要核心的概念,即“數據所有權和使用權的分離”,數據源在開放數據時開放的是使用權,而不是所有權。整個過程中數據的所有權都不會發生轉變,但是用户通過平台獲得了在某種特定時間內,在特定場景下的某種數據的使用權。
平台的功能從底層到上層主要劃分為基礎設施層、數據資源層、數據加工層和結果應用層(圖 2)。合法合規且安全便利的數據流通平台必須為數據流通和數據在線使用提供技術環境和機制支持。通過構建雲服務,使得用户在雲端使用數據而不是下載數據,能夠有效地避免數據泄露。
圖 2 雲際數據交易所功能模塊示意圖
2.1 雲際數據交易平台主要特點
平台化。通過平台彙集數據提供方、數據需求方、算法方和渠道方等各方,使得數據的採集、清洗、計算、使用全部在雲端平台打通匯集。平台通過大量的數據集聚和分類處理,能夠使得用户能夠便利地尋找到需求數據,或者明確哪些是需求以及如何利用。同時,大量的數據集聚能夠使得不同數據源之間能夠形成優勢互補,發揮數據的集聚效應,彌補同類數據源數據過於單一的缺陷和不足,形成參與方各取所需的數據流通生態閉環。
合規化。平台在構建時就嚴格遵循了《網絡安全法》《信息安全技術個人信息安全規範》以及與數據安全相關的法律法規,確保平台全流程合規合法。
線上化。客户全程線上自主化使用數據,無需線下人工對接和資質審核,並通過全方位的雲安全技術和流程設計作為安全保障,確保數據源的原始數據不泄露,實現數據處理的脱敏、加密和匿名化,數據的使用得到所有者的充分授權等。
在產品功能上,實現數據資源融合。包括利用數據字典或數據名片對第三方數據源進行展示,通過加密機制對自有數據和第三方上傳數據實現融合;建立完善的審核機制,主要通過數據授權、算法及結果審核保障數據安全流通;確保數據來源穩定可靠,數據使用情況可追溯、查看;算法建模良好兼容,創建算法時可隨時查看可用數據表,並支持多種語言編譯。
2.2 雲際數據交易平台安全措施及流程
雲際數據交易平台主要採取五種方式滿足數據源和數據需求方的安全保障需求。首先是數據安全融合,通過分佈式 AI 和分佈式建模在不泄露原始數據的前提下實現不同數據源之間的數據融合;二是加密機制,利用秘鑰生成器的抗干擾性、分佈式等特點,實現加密,並確保密鑰獨立生成和源代碼公開;三是數據沙箱,為用户提供封閉、安全、自由的計算環境,保證數據可用但不可下載;四是區塊鏈審計,利用區塊鏈本身不可篡改的特點,對數據交易、處理的各個環節進行記錄,確保整個過程合法合規、可被追蹤和溯源;最後是多租户隔離,明確用户權限,保證數據需求方在使用數據進行計算或者建模的時候完全獨立,不會受到其他租户的影響。
基於平台的數據流動流程包括數據源、平台方和數據需求方(見圖 3),整個過程類似於電商的服務流程,但全部過程都是在線上進行,而且服務內容是數據,並不是物理商品。具體而言,數據提供方需要發佈數據時,將原始數據經過必要的匿名化、去標準化或者分佈式記賬等操作後,上傳到平台並在平台確認後生成數據名片,呈現給需求方。提供方還要負責對
數據進行日常的編輯、維護和更新。
對於需求方而言,則需要上傳參與算法運行的自有數據,並在數據目錄中申請需要的數據授權,並選擇相應的算法,查看最後運算結果並確認之後,可以在線上直接使用。
圖 3 數據流動過程
通過雲際數據交易平台,可以確保在數據安全方面做到五個不能。數據不能看,即在流程上做到數據的所有權和使用權分離,數據可用但不可見;數據不能拿,數據可用但不能下載,結果不能出庫,直接在線上的體系內完成閉環;數據不能用,平台擁有一套基於數據脱敏的加密安全機制,就算發生泄漏,數據也毫無價值,全防護體系,記錄所有日誌,確保所有的數據流動都可被追查;數據不想看,平台方保持中立性,保證平台不會私下利用上傳數據。
轉自丨信息安全與通信保密雜誌社
作者丨陳曉建