近日,以“技術驅動,釋放數據要素價值”為主題的百度智能雲TechDay暨百度技術開放日——數據眾包專場在北京舉行。百度技術委員會理事長陳尚義表示:“2010年初,百度開始佈局人工智能,是國內投入最早、技術最強、佈局最完整的人工智能領軍企業,也是最懂數據的企業。目前百度智能雲數據眾包已經成為業界規模最大、品牌和技術最強的AI數據服務商,可以為廣大的AI開發者提供最專業、高質量的一站式數據採集標註等服務。”
據介紹,百度智能雲數據眾包打造的AI數據標註平台,實現數據從採集、接入、清洗、標註,到質量管理、交付等各流程的一站式管理。
在數據採集方面,百度智能雲採集資源覆蓋40多個國家地區,全國8大方言區。百度智能雲數據眾包已實現到業內最快的人像採集速度,每週可採集人像3萬個,採集語音5萬條。
數據標註方面,百度智能雲數據眾包已經形成四大關鍵能力:支持全場景的數據標註工具、全流程的流程平台管理能力、智能的標註技術以及龐大的資源支撐的能力,能夠針對各類AI應用場景數據需求,提供一站式AI數據服務。百度智能雲數據眾包沉澱了70餘種數據標註的能力,近十年來已經為百度200多條產品線和業內上百家行業頭部客户提供了近5萬次AI數據服務,正確率最高達到99.99%。
會上,百度智能雲數據眾包團隊揭秘了AI數據標註平台的核心技術。數據標註平台由工具平台、資源管理平台和任務分發管理平台組成。工具平台滿足客户語音、圖片、視頻、文本、3D點雲等全類型、全場景數據標註,支持點、線、框、區域等多種元素拖拽配置,每年支持數千個不同規則項目需求;資源管理平台與任務分發管理平台,打造從數據接入、任務分配、資源調度、質量審核、任務結算等全流程支撐體系,實現對百萬級任務和數十萬用户實時管理。藉助機器決策,標註過程實現了人員和數據的自動流轉,擺脱了人工干預,兼顧了效率和公平。針對用户歷史標註行為進行深度挖掘,結合百度自身的用户畫像能力,系統能自動描繪出全面、精準、多維的用户畫像體系,為每一個數據標註項目推薦最合適的標、審人員,確保使用最匹配的人員為客户釋放數據最大的價值,在保證質量的同時更兼顧了效率。
值得一提的是,百度智能雲數據眾包不斷探索前沿智能標註技術,從0到1,構建強大算法能力。目前,AI算法已貫穿標註前、標註中、標註後全流程,廣泛應用於預標註、輔助標註、質量檢查、人員畫像等各環節,累計提升標註效率超60%,標註錯誤自動檢出佔比達70%,極大提升標註效率與質量。據介紹,AI輔助的智能標註引入後,實現人體骨骼點標註整體效率提升71%,OCR的輔助標籤效率提升20%,3D連續幀障礙物預識別單幀效率提升28.8%。此外,數據眾包與百度研究院合作的基於深度學習的三維點雲等前沿標註技術持續激發AI數據的潛能。
值得一提的是,百度智能雲發佈了業內首個智能駕駛領域數據服務與資產管理平台,為智能駕駛企業用户提供一體化智能數據服務解決方案。數據服務與資產管理平台覆蓋“數據採集、數據標註、數據管理、模型訓練、模型評測”的人工智能開發全生命週期,幫助企業用户圍繞數據打造AI Pipeline,提升AI算法模型迭代效率,讓數據更好的驅動模型開發。