楠木軒

EasyData解放數據標註員雙手,採集清洗標註一站搞定

由 都超英 發佈於 科技

在AI模型開發中,數據準備往往佔據了大量時間。經過長時間的調研與訪問,我們發現用户常常會遇到以下問題:

· 難以獲取與場景數據匹配的訓練數據。在具體業務場景中,模型的效果至關重要,我們往往會追求高精度模型效果,以保證模型能做到替代人工、降本增效的最終目的。眾所周知,訓練數據和場景數據的匹配程度會極大影響模型表現,越貼近使用場景的數據,更有可能訓練出超高精度的模型。但可能因為歷史原因沒有大量現場的存量數據、或者重新採集需要進行大量調研才能部署新的採集設備、又或者如果需要人工到業務現場去收集訓練素材,不僅成本高,一旦業務出現變動,也很難保證數據的實時性。

· 視頻場景數據採集及處理繁雜。在視頻監控場景中,通常是多個攝像頭覆蓋多角度長時間工作,產生的視頻文件體積大,處理困難。對於一個最普通的130W像素攝像頭在2M碼流的情況下,連續工作一天24小時,將會生成約21G的視頻文件。在進行視頻數據處理時,僅上傳下載就會耗費大量時間。對自動視頻截幀、自動上傳的需求呼聲越來越高。

· 數據量、豐富度和數據質量欠佳。好不容易採集到的大量業務數據,清洗也是一項巨大的工作,用户曾向EasyDL團隊求助,自己採集好的圖像數據因為拍攝角度問題出現了整體偏斜的情況,影響標註效果和模型效果;也有用户表示想快速去掉訓練集中不清晰的圖片,只保留高質量圖片進行訓練。這一系列數據清洗的需求也同時被EasyDL的研發工程師們關注着。

在瞭解開發者在數據層面的諸多需求後,百度大腦團隊為開發者帶來了一款全新的數據產品——EasyData。從名字即可看到,EasyData圍繞"Data數據"展開,重點關注AI模型開發過程中的數據採集、數據清洗、數據存儲、數據標註、數據分析等環節,解決以上開發者反饋的各類數據管理問題。

作為業內首個提供軟硬一體、端雲協同的智能數據採集服務的平台,EasyData可支持圖片、文本、音頻和視頻四類數據的處理,其中圖片數據支持了採集、清洗、標註一站式處理,且四類數據都已經支持將EasyData處理的數據應用於EasyDL模型訓練,便於開發者直接使用。

同時,EasyData延承了百度大腦Easy系列產品簡單易用的特性,界面簡潔,操作流暢。隨着產品的不斷升級與優化,EasyData也將會提供更多的數據方向支持,持續為開發者提供更全面與優質的智能數據服務。

接下來,我們從圖片數據採集、數據標註、數據清洗方面來了解EasyData的特色和功能。

在安防監控、工業質檢等諸多領域,用户的數據來源將會是攝像頭或者相機,面對大量視頻和圖片,截幀、傳輸通常需要線下單獨操作,費時費力。考慮到用户的這一需求,EasyData提供了一個官方採集軟件,可以簡單快速將攝像頭的數據進行採集與截幀,並傳輸到數據集。目前,這個採集軟件已經支持Linux、Windows操作系統,同時還支持了主流的ARM開發版RK3399。在攝像頭方面,支持市面上絕大多數USB的攝像頭,並同時支持RTSP網絡協議的攝像頭,力求最大程度覆蓋用户的使用範圍。

進入EasyData首頁,如下圖所示,在【數據採集】的【攝像頭管理】中,即可一鍵下載本地軟件。此軟件支持圖形化界面配置,簡單易懂。用户通過此軟件,可以添加設備並根據業務需求設置抽幀策略,並將圖片傳輸至指定目錄。在這兩個功能的加持之下,原始圖像數據接入EasyData變得十分方便,並且完成了圖片的雲端管理,大量節省了單獨抽幀、傳輸的工作量。


如圖所示,在下載圖像採集SDK後,用户可以在EasyData平台中根據業務需求設置抽幀幀率、運行時間,提交之後,部署在攝像頭的SDK將會根據設定自行抽幀,用户可在【查看雲數據】中查看同步到EasyData的攝像頭數據,並保存到數據集中,進行下一步處理或訓練。




為了進一步方便用户使用,目前已經支持同時接入多台攝像頭設備。在對攝像頭進行雲端管理時,用户可以查看每一台攝像頭的在線/離線狀態,確保攝像頭在線以保證數據的上傳。並且,通過篩選條件,用户可以查看單個或多個攝像頭採集上傳的數據。


EasyData也支持數據閉環模型優化策略,通過雲服務調用獲取數據,由於EasyData已經實現了與EasyDL的數據共享,這裏的雲服務指的是用户在EasyDL平台將模型發佈為公有云API後,在授權EasyData獲取API調用數據的前提下,用户可以通過EasyData查找公有云API中識別錯誤的數據,保存到數據集進行清洗、標註後,進行下一次模型優化訓練,最終提升EasyDL公有云API調用的模型效果。

整個流程,如下圖所示:


在數據標註方面,EasyData不僅支持多類數據、多種模板的人工標註,還支持智能標註。只需用户進行少量關鍵數據的操作(通常為完成30%左右的數據標註),即可一鍵化完成剩餘數據的處理,在多輪標註之後,可以保證模型訓練效果的持平,大大降低了數據標註的成本。目前智能標註已支持物體檢測、圖像分割、文本分類。

在多人協同標註方面,EasyData可以和百度眾測進行對接,未來還將推出全新的多人標註,讓用户在平台直接進行標註任務的管理、分發和驗收,更為便捷地完成協同操作,在短時間內完成對大量數據的處理。

在影響模型效果的諸多因素中,數據質量始終是一個關鍵問題。尤其在眾多使用EasyDL進行CV方向模型開發的用户中,圖片的清晰程度、被檢測物體的具體位置都會對模型的最終表現產生影響。

數據清洗是很多用户期待已久的功能。EasyData不負眾望,為用户提供了這一服務。在圖像方向,EasyData為用户帶來了去模糊、去近似、旋轉、鏡像和裁剪等清洗和處理功能。其中,去模糊、去近似、裁剪等功能非常適用於視頻數據抽幀後的原始圖片數據處理,適用於視頻監控等業務場景應用獲取高質量數據。

· 去模糊:在使用去模糊功能時,可以在圖片上方看到一個清晰度調整條,通過拖拽圓點選取對應清晰度取值,將會僅保留清晰度高於此值的圖片。以下圖為例,當我們選擇"保留清晰度大於等於此值的圖片:4959"時,僅有最右側清晰度為5000的圖片被保留下來。

· 去近似:與去模糊相似,用户可以在圖片上方看到一個近似度選取條,通過拖拽圓點選取對應相似度取值,只會保存相似度高於此值的圖片。以下圖為例,當用户選擇"兩圖相似度大於等於此值保留一張:0.57"時,僅有相似度為0.75的第一張圖將會被保留下來。


· 旋轉:根據示例中參考圖片,通過下拉框可以選擇不同的順時針旋轉角度,最終針對所有圖片做旋轉操作。


· 鏡像:水平鏡像是指將圖像的左右部分以圖像垂直中軸線為中心進行鏡像對換;垂直鏡像是指將圖像的上下兩部分以圖像水平中軸線為中心進行鏡像對換;中心鏡像是指將圖像以圖像水平中軸線和垂直中軸線的交點為中心進行鏡像對換,相當於將圖像先後進行水平鏡像、垂直鏡像。根據示例中參考圖片,通過下拉框選擇不同的鏡像方式,最終針對所有圖片做對應鏡像操作。


· 剪裁:在隨機圖片中通過拖拽裁剪框邊緣各點調節框大小,最終針對所有圖片只保留框選出區域。


需要注意的是,考慮到用户數據的重要性,用户在進行數據清洗之後,可以選擇保留清洗前後的兩個數據集,而非只能將清洗掉的數據進行徹底刪除。目前,數據清洗已經支持了CV方向,在未來EasyData的不斷優化中,將會覆蓋更多方向,預置更為豐富的處理和清洗能力。

為了方便用户在模型的開發中可以更好地藉助EasyData的能力,進行高效精準的數據處理,EasyData與EasyDL的模型開發和訓練流程已經實現了無縫對接,支持數據集直接引用到模型訓練任務中,一站式獲取高精度AI模型。用户可以在EasyData進行數據採集、上傳與數據清洗等處理工作,無需單獨在本地進行數據處理再上傳,節省了操作時間,在操作界面和流程上也更為順暢。

EasyData的目標,旨在為用户提供一站式智能數據服務,從數據採集、上傳,到數據的標註、清洗,覆蓋數據管理全流程,使用EasyData一鍵完成數據準備,縮短模型開發時間,並幫助用户在更優化的數據加持下,訓練出效果更佳的AI模型,更好地賦能各類業務場景,加速AI落地。

立即搜索EasyData,即可體驗。