近日,以“技術驅動,釋放資料要素價值”為主題的百度智慧雲TechDay暨百度技術開放日——資料眾包專場在北京舉行。百度技術委員會理事長陳尚義表示:“2010年初,百度開始佈局人工智慧,是國內投入最早、技術最強、佈局最完整的人工智慧領軍企業,也是最懂資料的企業。目前百度智慧雲資料眾包已經成為業界規模最大、品牌和技術最強的AI資料服務商,可以為廣大的AI開發者提供最專業、高質量的一站式資料採集標註等服務。”
據介紹,百度智慧雲資料眾包打造的AI資料標註平臺,實現資料從採集、接入、清洗、標註,到質量管理、交付等各流程的一站式管理。
在資料採集方面,百度智慧雲採集資源覆蓋40多個國家地區,全國8大方言區。百度智慧雲資料眾包已實現到業內最快的人像採集速度,每週可採集人像3萬個,採集語音5萬條。
資料標註方面,百度智慧雲資料眾包已經形成四大關鍵能力:支援全場景的資料標註工具、全流程的流程平臺管理能力、智慧的標註技術以及龐大的資源支撐的能力,能夠針對各類AI應用場景資料需求,提供一站式AI資料服務。百度智慧雲資料眾包沉澱了70餘種資料標註的能力,近十年來已經為百度200多條產品線和業內上百家行業頭部客戶提供了近5萬次AI資料服務,正確率最高達到99.99%。
會上,百度智慧雲資料眾包團隊揭秘了AI資料標註平臺的核心技術。資料標註平臺由工具平臺、資源管理平臺和任務分發管理平臺組成。工具平臺滿足客戶語音、圖片、影片、文字、3D點雲等全型別、全場景資料標註,支援點、線、框、區域等多種元素拖拽配置,每年支援數千個不同規則專案需求;資源管理平臺與任務分發管理平臺,打造從資料接入、任務分配、資源排程、質量稽核、任務結算等全流程支撐體系,實現對百萬級任務和數十萬使用者實時管理。藉助機器決策,標註過程實現了人員和資料的自動流轉,擺脫了人工干預,兼顧了效率和公平。針對使用者歷史標註行為進行深度挖掘,結合百度自身的使用者畫像能力,系統能自動描繪出全面、精準、多維的使用者畫像體系,為每一個數據標註專案推薦最合適的標、審人員,確保使用最匹配的人員為客戶釋放資料最大的價值,在保證質量的同時更兼顧了效率。
值得一提的是,百度智慧雲資料眾包不斷探索前沿智慧標註技術,從0到1,構建強大演算法能力。目前,AI演算法已貫穿標註前、標註中、標註後全流程,廣泛應用於預標註、輔助標註、質量檢查、人員畫像等各環節,累計提升標註效率超60%,標註錯誤自動檢出佔比達70%,極大提升標註效率與質量。據介紹,AI輔助的智慧標註引入後,實現人體骨骼點標註整體效率提升71%,OCR的輔助標籤效率提升20%,3D連續幀障礙物預識別單幀效率提升28.8%。此外,資料眾包與百度研究院合作的基於深度學習的三維點雲等前沿標註技術持續激發AI資料的潛能。
值得一提的是,百度智慧雲釋出了業內首個智慧駕駛領域資料服務與資產管理平臺,為智慧駕駛企業使用者提供一體化智慧資料服務解決方案。資料服務與資產管理平臺覆蓋“資料採集、資料標註、資料管理、模型訓練、模型評測”的人工智慧開發全生命週期,幫助企業使用者圍繞資料打造AI Pipeline,提升AI演算法模型迭代效率,讓資料更好的驅動模型開發。