HBO大火科幻劇《西部世界》第三季在已經落下帷幕。《西部世界》講述了一個在AI機器人主題公園中,機器人接待員有了自主意識和思維進而覺醒、反抗人類的故事,同樣《西部世界》也是一部浩大的人工智能“養成記”,機器人們一次又一次的按照人類設計好的故事陷入悲情的循環,最終擺脱“人工”衍生出了真正的“智能”。
人工智能需要被人為教導訓練而成。在《西部世界》裏如此,在現實世界同樣如此。6月23日-6月24日,第四屆世界智能大會在天津舉辦,主題是“智能新時代:創新、賦能、生態”,會議期間,各類人工智能企業競相亮相。這些人工智能所需要的教導和“教材”,背後是由大量的訓練數據訓練而成。在人工智能不斷升温的當下,需要更多優質的AI數據實現人工智能與時俱進的進化。所以我們看到,AI的發展催生了數據標註這樣的新產業,並隨着人工智能應用落地的實現不斷向着高精尖、高質量發展。
人工智能不是“人工 智能”,是“數據 智能”
作為當今世界上最重要的科技之一,人工智能走過了60年“三起兩落”的發展歷程,已融入人們生產生活的各個方面。“智能 ”時代,構建應用場景、找準突破口成為人工智能應用落地的重中之重。
這個突破口,就是AI數據。現在的人工智能,本質是機器學習,數據是AI界最根本的競爭。AI依據大量有效數據總結規律形成“智能”,進而在不同場景下落地應用。正如雲測數據總經理賈宇航所説,“其實AI數據作為生產資料,是推動整個AI行業發展的必要一環,也是人工智能商業化的主要驅動力之一,説高質量的數據決定了AI的落地程度也不為過。”
小到智能手機人臉解鎖,大到智慧城市的智能安防,從車輛自動駕駛到AI聊天機器人,從醫學成像與診斷到農作物監測,AI數據正在發揮着愈加重要的作用。人工智能若要進行應用落地,就必須利用AI數據進行迭代優化。
目前,場景化AI數據是人工智能現階段發展和商業化落地的關鍵點。但機器並不能理解人類所能識別的原始數據,這些原始數據需要人為的“標籤化”以後,才可以被用於模型訓練。這些“標籤化”的數據越多越精準,其獲得的結果就越準確。例如,自動駕駛的算法模型經過大量場景AI數據的訓練,不斷的學習和優化,進而讓系統的智能化程度逐漸提高。
AI提速,數據標註行業應場景化、精細化發展
AI數據是人工智能的燃料,AI數據的精準與否直接決定了人工智能在新零售、智能駕駛、智能安防、智能家居等相關領域的落地應用。
前文有説到,對人工智能算法來説“標籤化”的數據才有意義。如何“標籤化”就涉及到“數據標註”這一環節,即針對語音、圖像、文本等數據,通過貼標籤、做記號、標顏色或劃重點的方式,來標註出其中目標數據的不同點、相似點或類別。
數據標註,是將數據轉化為AI商業價值的重要一環。數據標註的精準度越高,AI學習和產出的結果越精確,AI也就越智能。也由此,催生出了數據標註這一新興產業。Testin雲測旗下AI數據服務品牌“雲測數據”正是在這一浪潮下發展起來的,是業內為數不多的對數據準確性、數據類別、數據安全性等都要求極高的AI數據服務商,這也是目前人工智能行業發展所迫切需要的。
在雲測數據看來,AI最終是為了落地、為了被使用,所以對於AI所需的數據質量要求會更高更精準,甚至還會有更多的定製化場景下的AI數據需求。在提高數據安全與隱私保護之外,保證數據的唯一性、場景化,才能真正幫助企業打造數據核心壁壘,大幅度推動AI進一步落地,這也是雲測數據對自己的角色定位。
場景化,意味數據標註行業要滿足多樣化應用場景標註需求。以計算機視覺領域為例,目前雲測數據數據標註服務能力覆蓋自動駕駛、無人機、智能教育、智慧金融、工業機器人、新零售、安全防護等場景。
不同領域的不同場景需求,都有自己的數據類型與具體標註要求,因此極為考驗AI數據服務商的場景化服務能力和專業領域知識能力。
例如,在金融行業,早期對AI客服機器人的要求只停留在“用户提問後,對其中的關鍵詞進行提取,並按照既定話術回答”,這時期人工客服才是回答用户提問的主力軍,客服機器人只是配角。但是在互聯網金融業務競爭異常激烈的今天,越來越多的用户習慣在網上辦理業務,AI客服機器人正在大規模地取代人工客服,AI問答的準確性將直接決定業務的效率和成本,並影響用户體驗,很大程度上決定了金融機構的競爭力。
此外,隨着AI與各個產業結合的愈加緊密,AI商業化程度進入新的高度,企業對AI在商業化落地中的表現要求越來越高。為了保證AI算法的識別精度,AI數據的質量也就變得至關重要。
場景化 高質量 安全,雲測數據助力AI商業化落地
巨大的用户規模產生的海量數據是我國發展人工智能的優勢,隨着人工智產業規模的進一步擴大,迫切需要更精準、場景化的高標準數據訓練推動人工智能落地。雲測數據自成立以來,就致力於為AI場景化落地提供高質量數據支撐,與眾多業內領先企業建立了良好持久的合作關係。覆蓋行業包括智慧城市、智能家居、智能駕駛、智慧金融、新零售等領域,包含互聯網企業、科技企業和眾多智能化轉型的傳統企業。
在保證生產效率這一點上,雲測數據十分強調作業協同化。在AI數據生產中,雲測數據設計了從創建任務、分配任務、標註流轉、到質檢/抽檢環節和最後的驗收等更完善的管理流程,每個環節有相應專業人員來把控數據標註的質量和時間節點,進行好上下游工作環節銜接,得以在保證質量的前提下可以真正提高效率。
在場景化數據交付方面,雲測數據通過自建實驗室和數據標註基地,為智能駕駛、智慧城市、智能家居、智慧金融、新零售等眾多領域提供高質量的數據採集、數據標註服務,全方位支持文本、語音、圖像、視頻等各類型數據的處理。截止目前,雲測數據在華東、華北、華南均設有數據交付中心和數據場景實驗室,已成功為眾多企業提供AI數據服務。
同時,雲測數據一直將AI數據隱私安全放在業務開展的首要地位,在保障AI數據隱私性、安全性方面,雲測數據三管齊下。在數據採集之前,雲測數據會與所有數據採集的用户都簽訂數據授權協議,確保AI企業用於訓練的數據合法合規;同時,在AI數據合格交付後從不留底,堅持數據絕不復用的核心原則。此外,雲測數據從防火牆的設置、內部信息系統的管護到標準化的流程作業體系都建立了確切的數據保障機制,力圖做到步步保護、層層把關。
隨着“新基建“建設加速,AI行業將高速發展,AI運用落地,又加速AI數據這樣新興行業的興起。作為數據標註行業領頭羊,雲測數據也迎來了空前的發展機遇,將順勢而為推動AI行業向更高質量發展。