紐約大學教授 Gary Marcus 在他 2019 年的新書《Rebooting AI》中,將深度學習的問題重新歸納為 3 點,其中第一點就是“對數據的極度貪婪和依賴”。
近年來,大數據和AI就和之前的雲計算一樣,不管是媒體還是企業都言必稱大數據,似乎這樣就能站在行業的風口浪尖上。實際上部分企業獲取到 PB 量級的數據,可能只能做簡單的迴歸分析,要麼標籤太稀疏,要麼缺失,或者在收集上存在主動或被動的錯誤,給實際業務帶來了不小的麻煩。
根據美國高德納諮詢公司報道,質量差的數據使企業在 2017 年平均損失了 1500 萬美元。《麻省理工學院斯隆管理評論》進一步證實了這些發現,該報告指出,髒數據使業務平均損失了 15% 至 25%。如此驚人的比例,讓企業對數據的質量愈發重視起來。
因此,如果僅僅獲得第一手數據,就“萬事俱備,只差一個程序員了”,那就大錯特錯了。數據獲取只是第一步,只有經過高效專業處理的數據,才能對趨勢預測、統計分析或聚類分類等項目有優質的產出,為提升效率、節約成本或高層決策帶來有利支持。
IT 界有這麼句話“Garbage in, garbage out”。只有投入高質量的數據,才能得到有意義的結果,對垃圾數據的反覆計算迭代,就好比在鍋裏面對石頭進行不斷翻炒,即使時間再長加上再多調料也不能吃。低質量的數據將造成資源浪費、生產力增速下甚至是直接影響企業發展方向判斷,同時,低質數據也會失去客户的信任,影響企業的競爭力。
隨着 AI 公司對高質量數據的需求不斷加大,數據標註處理等數據服務開始形成一個行業,在 AI 發展中擔當越來越重要的作用。那麼對於這個過程,我們有應該如何選擇處理方式,才能迎接 AI 時代風起雲湧的浪潮呢?
AI數據服務趨勢:專業AI數據服務商、眾包比例逐漸超越企業自處理
為了獲取更多的AI數據,體量大的企業的依靠自己龐大的用户量進行收集,有的使用爬蟲,還有些直接購買,但是要獲取符合業務需求的有效數據並不容易。qualia.AI 的合夥人 Iason Demiros 曾經在社交網絡上表示:AI 行業最貴的就是數據收集、清洗和數據標註。要獲得更多收益,就要思考如何把數據處理的成本降低,把困難的東西做簡單。
目前,行業內常見的AI數據服務方案有下面幾種:
針對企業內部AI數據特點,團隊內部或聘請專人來對其進行清洗標註和分析交給專業AI數據服務商來處理交給眾包平台
然而這幾種方案各有長短,由企業內部自行對AI數據進行處理,需要很高的內部人力成本;交給專業AI數據服務商,則又會有安全方面的擔憂;而交給眾包平台雖然便宜,但質量和信息安全可能得不到保障。
從近幾年的報道來看,無論是國外的 Amazon MTurk 、Crowdflower 等,還是國內的百度眾包、京東眾智,甚至是一些院校“強制”學生進行實習等,保持着流水線工人一樣的低成本高勞動密集的特點,其背後的管理模式、信息安全和時效都有很大的不確定性。
據云測數據總經理賈宇航介紹,現階段 AI 數據有着三個大趨勢:
第一,場景的多元化。基於產品落地場景,AI數據需要儘可能覆蓋豐富多樣的特定場景條件,如:光線強度、拍攝角度、噪聲要求、室內室外等,乃至是長尾場景的AI數據需求。
第二,樣本的多樣性。以聲音的AI數據為例,就分不同的年齡、地區、性別等等,除此之外還涉及廣泛的AI數據類型,包括圖片、視頻、音頻、文本數據。如果想要發揮人工智能的普惠性,用AI產品服務好各種人羣,就需要豐富多樣化的樣本。
第三,數據的多維化。隨着技術和行業的發展,以智能駕駛領域AI數據需求為例,業界已逐漸從單攝像頭過渡到多攝像頭的方案。但是 2D 圖像對於物體的測距仍有着很大的侷限性,因此也出現了與激光雷達、超聲波雷達等 3D 傳感器的融合。通過更多維度的AI數據融合加速人工智能場景的落地。
因此,隨着人工智能的落地需求的場景和專業化程度的增加,AI數據本身的複雜度和種類也不斷提升,行業亟需場景化、專業化、高質量的AI數據服務,對於數據標註的管理和操作人員的專業性也有了更高的要求。
而解決AI數據問題需要從數據源出發,其過程涉及AI數據的採集、清洗、建立公司標準的企業處理模式,甚至需要對數據進行問責制度,同時需要建立協同機制,避免出現數據孤島。因此,越來越多的人工智能企業開始選擇專業的AI數據服務公司進行合作,以獲得更加高質量、高效率的AI數據。
雲測數據:AI數據服務的最高精度支持 99.99%
雲測數據具有全領域的AI數據服務標註能力,涉及視覺圖像、語音語義理解、自然語言處理等;擁有具備自主知識產權的數據標註平台,並不斷優化工具易用性和擴展性,以提升標註的效率,同時自研質檢工具,確保標註和審核結果的高質量輸出,其數據標註的最高交付質量精度可達到 99.99%。
據悉,雲測數據擁有自建的數據標註基地和業內首創的數據場景實驗室,不管是數據生產效率、數據質量保證、數據隱私安全,還是實力規模、數據交付經驗、幫助傳統企業智能化轉型等方面,都有着不可替代的優勢。其合作客户涵蓋汽車、安防、駕駛、手機、互聯網、金融、新零售、工業等領域的上百家企業和研究機構。
首先,雲測數據對AI數據作業的流程進行了嚴格的規範化,以標準化服務為抓手,前期明確客户的AI數據標準後,經過試標註驗收合格之後,才開始規模化作業,標註之後還有幾輪質檢和交叉審核,用來確保數據的高質量輸出,並且項目經理全程跟蹤數據作用流程,全力保障數據交付質量。此外,雲測數據在流程設置上也進行了優化和管理,確保各環節銜接通暢,實現保證質量的情況下的高效輸出。
為了讓高質量 AI 數據成為企業的核心壁壘,雲測數據以高質、專業、高效、豐富、安全的優勢展示了自己的AI數據業務佈局。
安全性:數據的安全主要在於數據安全、隱私和版權的保障上。為保證AI數據的隱私安全,雲測數據設置了一系列嚴格措施。其中一條核心原則就是數據絕不復用,當數據合格交付後從不留底,會清毀相關數據;其二,所有和雲測數據進行數據採集的用户都會簽訂數據授權協議,從來源上確保企業用於訓練的數據合法合規;同時,雲測數據內部還設定了數據隔離、質量保障等一系列數據安全流程和技術。
雲測數據總經理賈宇航也曾多次公開表示,無論是 AI 公司還是數據服務公司,眼光都要長遠一些,採用未經授權的數據當然可以控制成本,野蠻發展終究會造成不良後果。
高效率高質量:雲測數據具有自建的標註基地,支持圖像、音視頻以及 3D 點雲類標註,多重審核,保證準確率。其行業首創的數據場景實驗室可支持定製化場景數據的採集,覆蓋智能駕駛、智能家居、智慧城市、智能金融等應用場景。同時雲測數據具有自研標註平台,擴展性高,具有多年經驗和實踐打磨,交互流暢。此外,在必要的情況下,雲測數據還將提供私有化部署和駐場作業服務。
面對企業自身落地場景和算法模型需要,雲測數據做到了模板化的任務創建,並支持不同種類標註類型和標註方法。結合自身業務處理方式及經驗,持續迭代標註平台工作業務流及標註方法,效能逐年提升。
雲測數據對產業賦能,提供的是一體化服務,從平台自研、場景實驗室建立、自建數據交付中心的建立、自身專業工作人員積累,採用高效的組織協同方式。同時,自建數據交付中心以及自有員工,人員專業穩定,為需要特定領域知識積累的AI數據處理內容,做到了有力的保證。
AI數據服務產業前景樂觀,向規範化技術密集型產業轉型
智研發布的數據標註行業報告指出,2018 年我國數據標註與審核行業規模達到 52.55 億元,其中 34% 左右的業務量流向專業做數據採標的第三方公司。在《互聯網週刊》聯合eNet研究院共同發佈的《2020 年數據標註公司排行》中,雲測數據位列榜首。
隨着行業發展和國家的大力支持,AI數據服務也開始從勞動密集向技術密集型發展。而目前數據驅動文化(即人和業務流程)也正在慢慢改變,也會有越來越多的企業向數據驅動轉型。此外,AI數據服務行業也將越來越規範化。品牌AI數據服務商在品牌效益、技術實力、服務意識以及業務能力等方面優勢明顯,而這些品牌服務商也將成為這一領域中的核心玩家。
雲測數據的的高質量數據採集、數據標註業務,將在已有的領域繼續深耕,同時拓展到更多領域,為更多人工智能產業化提供AI數據支撐。而有了這些AI數據的助力,會在 AI 領域催生出更多令人興奮應用和場景,把我們帶入一個全新的「智能時代」!