實時 3D 內容創作和運營平台 Unity 今日宣佈發佈 Unity 計算機視覺數據集。該數據集將有效降低計算機視覺應用的開發成本,加快為製造業、零售業和安防行業訓練人工智能的速度。計算機視覺方案提供商現在可以為其 AI 訓練需求購買定製化的數據集,同時保證符合嚴格的隱私和監管標準。
對於人工智能訓練來説合成數據非常重要,因為往往現實世界所收集的真實數據無法滿足特定的條件或需求。比如隱私規定限制了真實數據的可用性,或規定了數據只能以何種方式被使用。合成數據的一種常見用途是用於預發佈的產品測試,此時現實數據可能不存在或無法被測試人員獲取。此外,機器學習需要大量的數據用於訓練算法,這也有賴於合成數據。因為在現實生活中,尤其是在自動駕駛汽車行業,生成能夠用於算法訓練的數據非常昂貴。如今 Unity 已經推出了計算機視覺數據集,未來在獲取用於人工智能和機器學習訓練的高質量合成數據集上,成本將不再是障礙。
Unity 人工智能和機器學習高級副總裁 Danny Lange 博士表示:“通過提供符合隱私規定且如實反映真實世界的合成數據,我們能夠讓這些具有開創性的數據集為更多創新者所用。根本上來説,這些數據集能幫助企業規劃和模擬尚未出現過的場景,甚至能夠模擬真實世界的用户增長來不斷調整訓練數據。因此,隨着客户應用領域的擴展,我們將能看到更智能的室內環境,比如全自助無人零售店等等。”
Unity 使用 “域隨機化”(domain randomization)技術來創建各種計算機視覺數據集,以此來提高數據質量並控制實際應用中的偏差值。在合成數據的過程中,該技術將對目標物體的位置和朝向進行各種排列組合,還有光照和攝像機角度的變化,以及可能實現的 Unity 環境的無數變量配置等。而且,Unity 的合成數據集還可以避免真實數據獲取過程中可能存在的隱私違規或不可控的人工偏差。比如有些包含真實的人或地點的圖像是直接從互聯網上非法抓取的,或是花費大量人力從真實世界中拍攝獲得。
對於真實世界的數據,標註的價格隨着標註類型的複雜性而增加。Unity 則提供了一個適用於任何標籤類型的較低價格,客户無論是為簡單還是複雜的行業標準都將支付相同的標籤價格,如 2D 和 3D 邊界框、類細分或實例細分。合成數據集是按等級定價模型收費的,客户所需合成的圖像數量越多,每幅圖像的價格越低。
Lange 博士補充道:“合成數據正在徹底改變機器學習模型的訓練方式,它彌補了人工收集和標記真實世界數據的許多不足之處。我們正在探索一切可能性,幫助創作者們獲取他們決策所需、並且負擔的起的數據,推動 Unity 技術在各個領域的應用。這也是為什麼我們推出這些數據集,並竭力幫助客户滿足他們的需求。”