AI訓練的福音：關於合成數據的一切

如今，AI技術面臨數個難以攻克的核心挑戰。其不僅需要大量資料以提供準確結果，同時也要求我們認真挑選資料內容以避免引入偏見，而且必須嚴格遵守日益苛刻的資料隱私法規。過去幾年以來，圍繞這些挑戰誕生出一系列解決方案——包括用於幫助識別並減少偏差/偏見的各類工具、使用者資料匿名化方案以及用於保證僅在使用者同意時收集資料的管理框架等等。然而，每一種解決方案都有著自己的問題與短板。

如今，我們正迎來合成數據這一新興行業，有望全面破除上述困局。合成數據是指由計算機人工生成的資料，可用於替代自現實世界中採集的真實資料。

合成數據集必須與真實資料集擁有相同的數學與統計學屬性，但不可明確指代真實個體。大家可以將其理解為真實資料的一種數字化映象，能夠在統計學層面反映實際情況。如此一來，我們就可以在完全虛擬的場域當中訓練AI系統，並更輕鬆地針對醫療保健、零售、金融、運輸乃至農業等各類用例實現資料定製。

由此掀起的革命浪潮正在孕育當中。StartUs Insights去年6月釋出的研究結果表明，已經有50多家供應商開發出合成數據解決方案。但在具體介紹領先廠商之前，我們先來了解合成數據能夠解決哪些具體問題。

真實資料帶來的大麻煩

過去幾年以來，人們越來越關注資料集中的固有偏差/偏見如何在無意之間給AI演算法帶來永久存在的系統性歧視。根據Gartner公司的預測，到2022年，由資料、演算法或AI專案管理團隊引入的偏差/偏見將在所有錯誤交付結果中佔據85%的比例。

AI演算法的激增也引發了人們對於資料隱私的日益關注。為此，歐盟透過GDPR、加利福尼亞州頒佈州內隱私法案，弗吉尼亞州最近也著手製定更為嚴苛的消費者資料隱私與保護條款。

相關法律的出臺，使消費者能夠更好地控制其個人資料。例如，弗吉尼亞州的新法律向消費者授予訪問、更正、刪除及獲取個人資料副本的權利，同時也允許消費者隨時拒絕企業銷售其個人資料、或者出於針對性廣告發布等目的對個人資料/資料進行演算法訪問的行為。

透過限制資訊訪問渠道，個人資訊確實得到了有效保護，但這同時也將犧牲演算法的預測效果。要獲得高準確性AI演算法，模型希望資料供應越多越好;而如果得不到充足的資料，則AI優勢在實際應用(例如協助醫學診斷及藥物研究)方面的表現也可能受到影響。

另一種隱私問題解決方案則是消費者資訊匿名化。例如，我們可以透過掩蔽或消除身份特徵(例如刪除電子商務交易記錄中的姓名、信用卡號，或者清除醫療記錄中的身份內容等)實現個人資料匿名化。但越來越多的證據表明，即使對某一資料來源完成匿名處理，對方仍能夠利用不慎洩露的其他消費者資料集實現內容關聯與還原。實際上，透過合併來自多個來源的資料，即使經過一定程度的匿名化，惡意方仍然能夠整理出令人驚訝的清晰身份形象。在某些特定情況下，對方甚至能夠直接關聯公共來源資料，在無需任何惡意攻擊的前提下完成身份定位。

合成數據解決方案

合成數據承諾在實現AI優勢的同時，消除各類負面影響。除了將真實個人資料排除在外，合成數據還強調糾正現實場景中產生的種種偏差/偏見，由此實現超越真實資料的素材質量。

除了高度依賴個人資料的應用場景之外，合成數據還有其他多種用途。其一就是複雜的計算機視覺建模，這裡往往涉及多種因素的實時互動。我們可以使用由高階遊戲引擎合成的影片資料集創建出超逼真影象，用以描繪自動駕駛場景中可能發生的各種事件，由此獲得現實場景下幾乎不可能捕捉到、或者可能極度危險的影象或影片。這些合成數據集的出現，極大提升並改善了自動駕駛系統的訓練效率與效果。

圖：使用合成影象訓練自動駕駛車輛演算法

頗為諷刺的是，用於構建合成數據的主要工具之一，恰巧與建立Deepfake深度偽造影片的工具相同。二者均使用到生成對抗網路，即GAN。GAN的本質在於建立兩套神經網路，其一生成合成資料，其二則嘗試檢測合成數據是否真實。在整個操作迴圈當中，生成器網路將不斷改善資料質量，直到分類器無法找出真實資料與合成數據之間的差異為止。

新興生態系統

Forrester Research最近確定了多項關鍵技術，其中就將合成數據列為實現“AI 2.0”的必要因素之一，使其能夠從本質上擴充套件AI的應用可能性。透過更完備的資料匿名化功能以及強大的固有偏差/偏見糾正能力，再加上批次建立以往難於獲取的資料，合成數據有望成為多種大資料應用的效率之選。

合成數據還具有其他一系列優勢：您可以快速建立資料集，並重復使用這些標記資料實現監督學習。另外，合成數據不像真實資料那樣需要清洗與維護，因此至少從理論上講，這項技術能夠節約下大量時間與成本。

目前，市場上已經出現了幾家信譽卓著的合成數據廠商。IBM表示其正著力推進資料製造業務，希望透過建立合成測試資料以消除機密資訊洩露風險、解決GDPR及其他法規問題。AWS則開發出內部合成數據工具，透過生成的資料集不斷對Alexa進行新語種訓練。微軟還與哈佛大學合作開發一款工具，其中的合成數據功能可以增強各研究部門之間的協作。雖然形勢一片大好，但合成數據仍處於起步階段，市場走向將在很大程度上由新興企業的發展所決定。

下面，我們整理出一份簡單的合成數據行業早期領導廠商清單，具體資訊來自G2與StartUs Insights等行業研究組織。

1、AiFi — 使用合成數據模擬零售商店與購物者行為特徵。

2、AI.Reverie — 生成合成資料以訓練計算機視覺演算法，藉此實現活動識別、目標檢測與劃分。應用範圍包括智慧城市、稀有物質示板識別、農業以及智慧零售等場景。

3、Anyverse — 使用原始感測器資料、影象處理功能以及汽車行業的定製化鐳射雷達建立合成數據集，藉此實現場景模擬。

4、Cvedia — 建立合成影象，簡化標記、真實與視覺資料的收集流程。這套模擬平臺使用多種感測器合成逼真環境，藉此創建出豐富的實證資料集。

5、DataGen — 室內環境用例，支援智慧商店、家用機器人及增強現實等場景。

6、Diveplane — 為醫療保健行業建立與原始資料具有相同統計學屬性的合成“孿生”資料集。

7、Gretel — 為開發人員提供與GitHub資料等效的合成數據集，其中包含與原始資料來源相同的洞見。

8、Hazy — 生成資料集以增強欺詐與洗錢檢測能力，用以打擊各類金融犯罪。

9、Mostly AI — 專注於保險與金融領域，也是最早建立合成結構化資料的廠商之一。

10、OneView – 開發虛擬合成數據集，用於透過機器學習演算法分析地球觀測影象。