在AI模型開發中,資料準備往往佔據了大量時間。經過長時間的調研與訪問,我們發現使用者常常會遇到以下問題:
· 難以獲取與場景資料匹配的訓練資料。在具體業務場景中,模型的效果至關重要,我們往往會追求高精度模型效果,以保證模型能做到替代人工、降本增效的最終目的。眾所周知,訓練資料和場景資料的匹配程度會極大影響模型表現,越貼近使用場景的資料,更有可能訓練出超高精度的模型。但可能因為歷史原因沒有大量現場的存量資料、或者重新採集需要進行大量調研才能部署新的採集裝置、又或者如果需要人工到業務現場去收集訓練素材,不僅成本高,一旦業務出現變動,也很難保證資料的實時性。
· 影片場景資料採集及處理繁雜。在影片監控場景中,通常是多個攝像頭覆蓋多角度長時間工作,產生的影片檔案體積大,處理困難。對於一個最普通的130W畫素攝像頭在2M碼流的情況下,連續工作一天24小時,將會生成約21G的影片檔案。在進行影片資料處理時,僅上傳下載就會耗費大量時間。對自動影片截幀、自動上傳的需求呼聲越來越高。
· 資料量、豐富度和資料質量欠佳。好不容易採集到的大量業務資料,清洗也是一項巨大的工作,使用者曾向EasyDL團隊求助,自己採集好的影象資料因為拍攝角度問題出現了整體偏斜的情況,影響標註效果和模型效果;也有使用者表示想快速去掉訓練集中不清晰的圖片,只保留高質量圖片進行訓練。這一系列資料清洗的需求也同時被EasyDL的研發工程師們關注著。
在瞭解開發者在資料層面的諸多需求後,百度大腦團隊為開發者帶來了一款全新的資料產品——EasyData。從名字即可看到,EasyData圍繞"Data資料"展開,重點關注AI模型開發過程中的資料採集、資料清洗、資料儲存、資料標註、資料分析等環節,解決以上開發者反饋的各類資料管理問題。
作為業內首個提供軟硬一體、端雲協同的智慧資料採集服務的平臺,EasyData可支援圖片、文字、音訊和影片四類資料的處理,其中圖片資料支援了採集、清洗、標註一站式處理,且四類資料都已經支援將EasyData處理的資料應用於EasyDL模型訓練,便於開發者直接使用。
同時,EasyData延承了百度大腦Easy系列產品簡單易用的特性,介面簡潔,操作流暢。隨著產品的不斷升級與最佳化,EasyData也將會提供更多的資料方向支援,持續為開發者提供更全面與優質的智慧資料服務。
接下來,我們從圖片資料採集、資料標註、資料清洗方面來了解EasyData的特色和功能。
在安防監控、工業質檢等諸多領域,使用者的資料來源將會是攝像頭或者相機,面對大量影片和圖片,截幀、傳輸通常需要線下單獨操作,費時費力。考慮到使用者的這一需求,EasyData提供了一個官方採集軟體,可以簡單快速將攝像頭的資料進行採集與截幀,並傳輸到資料集。目前,這個採集軟體已經支援Linux、Windows作業系統,同時還支援了主流的ARM開發版RK3399。在攝像頭方面,支援市面上絕大多數USB的攝像頭,並同時支援RTSP網路協議的攝像頭,力求最大程度覆蓋使用者的使用範圍。
進入EasyData首頁,如下圖所示,在【資料採集】的【攝像頭管理】中,即可一鍵下載本地軟體。此軟體支援圖形化介面配置,簡單易懂。使用者透過此軟體,可以新增裝置並根據業務需求設定抽幀策略,並將圖片傳輸至指定目錄。在這兩個功能的加持之下,原始影象資料接入EasyData變得十分方便,並且完成了圖片的雲端管理,大量節省了單獨抽幀、傳輸的工作量。
如圖所示,在下載影象採集SDK後,使用者可以在EasyData平臺中根據業務需求設定抽幀幀率、執行時間,提交之後,部署在攝像頭的SDK將會根據設定自行抽幀,使用者可在【檢視雲資料】中檢視同步到EasyData的攝像頭資料,並儲存到資料集中,進行下一步處理或訓練。
為了進一步方便使用者使用,目前已經支援同時接入多臺攝像頭裝置。在對攝像頭進行雲端管理時,使用者可以檢視每一臺攝像頭的線上/離線狀態,確保攝像頭線上以保證資料的上傳。並且,透過篩選條件,使用者可以檢視單個或多個攝像頭採集上傳的資料。
EasyData也支援資料閉環模型最佳化策略,透過雲服務呼叫獲取資料,由於EasyData已經實現了與EasyDL的資料共享,這裡的雲服務指的是使用者在EasyDL平臺將模型釋出為公有云API後,在授權EasyData獲取API呼叫資料的前提下,使用者可以透過EasyData查詢公有云API中識別錯誤的資料,儲存到資料集進行清洗、標註後,進行下一次模型最佳化訓練,最終提升EasyDL公有云API呼叫的模型效果。
整個流程,如下圖所示:
在資料標註方面,EasyData不僅支援多類資料、多種模板的人工標註,還支援智慧標註。只需使用者進行少量關鍵資料的操作(通常為完成30%左右的資料標註),即可一鍵化完成剩餘資料的處理,在多輪標註之後,可以保證模型訓練效果的持平,大大降低了資料標註的成本。目前智慧標註已支援物體檢測、影象分割、文字分類。
在多人協同標註方面,EasyData可以和百度眾測進行對接,未來還將推出全新的多人標註,讓使用者在平臺直接進行標註任務的管理、分發和驗收,更為便捷地完成協同操作,在短時間內完成對大量資料的處理。
在影響模型效果的諸多因素中,資料質量始終是一個關鍵問題。尤其在眾多使用EasyDL進行CV方向模型開發的使用者中,圖片的清晰程度、被檢測物體的具體位置都會對模型的最終表現產生影響。
資料清洗是很多使用者期待已久的功能。EasyData不負眾望,為使用者提供了這一服務。在影象方向,EasyData為使用者帶來了去模糊、去近似、旋轉、映象和裁剪等清洗和處理功能。其中,去模糊、去近似、裁剪等功能非常適用於影片資料抽幀後的原始圖片資料處理,適用於影片監控等業務場景應用獲取高質量資料。
· 去模糊:在使用去模糊功能時,可以在圖片上方看到一個清晰度調整條,透過拖拽圓點選取對應清晰度取值,將會僅保留清晰度高於此值的圖片。以下圖為例,當我們選擇"保留清晰度大於等於此值的圖片:4959"時,僅有最右側清晰度為5000的圖片被保留下來。
· 去近似:與去模糊相似,使用者可以在圖片上方看到一個近似度選取條,透過拖拽圓點選取對應相似度取值,只會儲存相似度高於此值的圖片。以下圖為例,當用戶選擇"兩圖相似度大於等於此值保留一張:0.57"時,僅有相似度為0.75的第一張圖將會被保留下來。
· 旋轉:根據示例中參考圖片,透過下拉框可以選擇不同的順時針旋轉角度,最終針對所有圖片做旋轉操作。
· 映象:水平映象是指將影象的左右部分以影象垂直中軸線為中心進行映象對換;垂直映象是指將影象的上下兩部分以影象水平中軸線為中心進行映象對換;中心映象是指將影象以影象水平中軸線和垂直中軸線的交點為中心進行映象對換,相當於將影象先後進行水平映象、垂直映象。根據示例中參考圖片,透過下拉框選擇不同的映象方式,最終針對所有圖片做對應映象操作。
· 剪裁:在隨機圖片中透過拖拽裁剪框邊緣各點調節框大小,最終針對所有圖片只保留框選出區域。
需要注意的是,考慮到使用者資料的重要性,使用者在進行資料清洗之後,可以選擇保留清洗前後的兩個資料集,而非只能將清洗掉的資料進行徹底刪除。目前,資料清洗已經支援了CV方向,在未來EasyData的不斷最佳化中,將會覆蓋更多方向,預置更為豐富的處理和清洗能力。
為了方便使用者在模型的開發中可以更好地藉助EasyData的能力,進行高效精準的資料處理,EasyData與EasyDL的模型開發和訓練流程已經實現了無縫對接,支援資料集直接引用到模型訓練任務中,一站式獲取高精度AI模型。使用者可以在EasyData進行資料採集、上傳與資料清洗等處理工作,無需單獨在本地進行資料處理再上傳,節省了操作時間,在操作介面和流程上也更為順暢。
EasyData的目標,旨在為使用者提供一站式智慧資料服務,從資料採集、上傳,到資料的標註、清洗,覆蓋資料管理全流程,使用EasyData一鍵完成資料準備,縮短模型開發時間,並幫助使用者在更最佳化的資料加持下,訓練出效果更佳的AI模型,更好地賦能各類業務場景,加速AI落地。
立即搜尋EasyData,即可體驗。