圖片來源@Unsplash
“我覺得標註行業一直在承受誤解,特別是在被貼上人工智能界‘富士康’的標籤之後。”
“外界會覺得:AI這麼高大上,背後卻是一羣打標籤的人。(他們)想刻意製造反差,就直接(把標註)定義成勞動密集型行業。”見到鈦媒體編輯時,倍賽數據CEO杜霖忍不住吐槽道,“我不想讓人再去看小作坊,想讓人看看業內還有我們這種技術公司。”
2015年前後,AlphaGo橫空出世,掀起了國內AI創業的浪潮。
五年間,人工智能行業在聚光燈下飛奔,跑出實驗室、實現”AI+產業“落地,併成為新基建的重要組成。AI行業也經歷了資本的冰與火,逐漸走向理性。
但作為AI產業鏈的最上游,數據標註行業卻一直遊離在聚光燈外,很少被人提起。
即便外界有觀感,也大多想象這個行業絕大多數公司會是“富士康”一樣的流水線,亦或是三四線城市的小作坊。
就連劉慈欣都會説:現在的人工智能,前面有多少智能後面就有多少人工。數據標註行業,更多被用來調侃人們對AI的期望與差距。
但實際上,這個行業已經走過了小作坊的粗放時期,開始走進“技術致勝”的時代。
誤解一:數據標註只靠人力2017年,《經濟學人》發表的封面文章中提出了一個疑問:數據更像石油還是陽光?
文章作者認為,數據是“世界上最寶貴的資源”,數據是未來的石油。但另一方面,數據也具有公共物品的特徵,人們應該對其進行廣泛的收集和利用,以最大程度地創造財富。在這個意義上,數據就如陽光一般。
如同石油和陽光,數據不經過煉化、轉換沒法應用,而最初採集數據、處理數據的人,就是數據標註師們。
作為AI應用大國,國內的數據標註公司,與AI創業潮近乎是同時起步。剛起步時,國內AI大多處於實驗室研發階段,所需數據量小,也並無定製化需求,因此行業門檻較低,大多以勞動密集型的作坊出現,這些“小作坊”以外包(BPO)業務為主,也給外界留下了“富士康”的印象。
而現在隨着AI大規模落地,向產業更深更廣延伸,使得標註場景更細分、數據類型更復雜,行業開始跨過野蠻生長,進入精耕細作。整個AI基礎數據服務產業正在經歷轉型升級——更多勞動密集型企業正面臨生死關頭,更多的技術型公司正在突出重圍。
艾瑞諮詢今年發佈的報告顯示,2019年中國AI基礎數據服務行業市場規模可達30.9億元,預計2025年市場規模將突破100億元,年化增長率達到21.8%。
報告指出,中小型數據供應商的整體體量仍然可觀,但隨着業務門檻提升、客户需求多樣化,越來越多中小型供應商在苦惱生存問題,這一羣體在未來1-2年內將迎來“倒閉潮”。
杜霖所在的倍賽數據(BasicFinder,以下簡稱倍賽)就是家典型的標註技術公司。
這家公司定位是AI的基礎設施供應商,構建從數據標註、數據管理到建模的一系列底層基礎設施。
杜霖團隊的核心成員都是機器學習和AI從業者,但2015年國內AI創業熱時,他們卻選擇了AI產業鏈的最上游——數據標註。
“我們一直堅信一句話叫code is cheap(代碼是最便宜的)。隨着Google TensorFlow、Pytorch等開源框架的推出,AI公司建模的門檻會越來越低,從前海外名校博士的工作現在本科學生都可以做。”杜霖對鈦媒體App表示
“如果我們做AI技術公司,就要在模型甚至更底層的神經網絡研究中發力。而我們看到的更大的藍海其實是數據,未來算法門檻越來越低,而數據則會越來越高。“
杜霖表示,大量數據標註企業都強調解決就業,而非技術屬性,這也是行業被視為勞動密集型的原因之一,但這並不代表這個賽道里不需要技術。
“京東的主要人員構成是快遞小哥對不對,但京東是勞動密集型企業嗎?本質上它還是技術驅動的。”
當前,隨着AI建模能力外溢,技術門檻降低,不僅科技公司、各行各業對數據的需求都在增長。科技公司想通過巨大的數據池構建模型壁壘,也有更多企業開始重視自有業務數據的標註及模型迭代,對標註系統的私有化部署或工具SaaS需求開始增長。
一位不願具名的AI從業者對鈦媒體App表示,國內一些頭部AI公司宣稱建立了模型壁壘,但本質上是由於積累了絕大部分數據而形成的數據壁壘,其實各家的模型並沒有代際上的差異。
杜霖也強調了數據量對建模效率的影響。“請一羣厲害的博士去攻克一個場景,或許僅能提升不到5%的效率,但如果能在數據端多20%的數據,效果會比從底層算法研發提升更多。”
在他看來,標註企業的核心競爭力還是技術。“這個行業經歷了大洗牌,勞動密集、壓榨工資的企業被淘汰,最後變成技術主導。技術提升效率、產生了成本優勢,通過理解客户需求、再加上自有技術和平台,標註企業就能形成自己的壁壘。”
誤解二:數據標註不被資本重視?但“勞動密集型”這一刻板印象,依然存在於數據標註這個產業中。體現在投融資上尤為明顯。
杜霖認為,國外比較認可標註公司的技術價值,北美數據標註公司與國內相關公司的估值至少相差10倍。“國外做標註工具軟件的企業已經在投融資中火起來了,我們也就是千萬級人民幣,他們融資規模普遍比我們大,基本都是幾千萬美金起步。”
據鈦媒體App不完全統計,海外技術驅動型公司已經受到關注。其中,黑馬企業Scale AI在C輪融資1億美元后,投後估值已超10億美元,躋身獨角獸行列。不少標註公司被企業收購,比如老牌標註公司Figure Eight也3億美金被Appen收購,初創的Mighty AI被Uber全資收購。今年3到4月,海外的DefineCrowd、LabelBox紛紛完成數千萬美元融資。
而國內標註公司中,愛數智慧在A輪融資後的估值約為2億元人民幣,這在同類公司中已經屬於融資表現較好的了,國內同類公司融資額基本在千萬級人民幣左右。
鈦媒體整理了部分數據標註公司投融資情況,數據來自天眼查以及公開資料
五嶽資本(N5Capital)董事總經理蒲俊臣對鈦媒體App表示,與北美同類型公司產生估值差,是因為國內大部分投資者將標註技術公司等同於標註業務公司,加之部分媒體對行業勞動密集屬性的刻畫,使得提升行業效率的技術價值沒有被公允認可。不過,隨着投資者對行業認識深入,這種差距會逐漸減少。
對於國內標註公司是否有投資價值,投資方也有不同看法。
在蒲俊臣看來,標註技術型公司仍有投資價值。
“一方面,AI公司在算力、算法方向投入的增量梯度逐漸下降,未來市場存在巨大的數據需求;另一方面,這類公司的智能標註工具不僅提升了數據的產出效率,同時也在數據、輔助標註模型的迭代中打造出了完善的AI基礎設施。AI的未來就是數據到模型的無縫輸出。”
星瀚資本創始合夥人楊歌則認為,要判斷投資價值,最重要的是看產業能否閉環。
“要看上下游公司是否有長期的經濟需求、會不會長期使用這個工具、工具成熟後會不會自己做,邊際價值會不會遞減等。評判一家數據標註公司,拋開上下游去評判是沒有價值的。所以投資時,不能把標註了多少數據當做資產,一定要從供需角度去判斷其價值。”
楊歌對鈦媒體App表示,數據標註行業雖然to B,但和供應鏈、金融貿易等行業相比,需求存在不穩定性,且容易被替代。即便是做SaaS的技術公司,也很難有絕對的技術壁壘,基本屬於營銷導向或客户關係導向。而且這種服務型公司通常是乙方,市場把控和定價能力較弱,所以風險比較高,這也是投資時要關注的點。
誤解三:數據標註不需要高學歷在以往的印象中,數據標註從業者往往學歷不高、工作環境惡劣,但這只是行業的一枚切片,事實的一角。
那些“餵養”AI的人們,既有標註基地的標註員,也包括技術公司中做系統開發維護的程序員們。一個標註項目,往往先給到標註技術公司或眾包平台,再由他們派遣給自營標註基地或外包人員。
以倍賽為例,公司當前有兩條業務線,一條是自研的數據標註SaaS平台,另一條是為數據保密性強的大中型企業研發數據標註的私有化版本。公司算法工程師的日常工作,就是開發維護平台,並不斷訓練AI模型來輔助人工標註。
倍賽北京辦公室都是SaaS平台的研發人員,有着紐約大學、上海交大、哈工大和北航的教育背景。鈦媒體編輯到訪時,一位算法工程師正在優化SaaS系統。系統中“物體自動識別”的能力已經可以自動識別並標註80種物體,該工程師正在“訓練”AI識別更多的物體。
在工程師的打磨下,當前SaaS平台已具備從數據採集、打標籤到直接生成模型的能力。倍賽自營的20多家數據標註基地和眾包人員,均在其自有SaaS平台上完成標註工作。
“最近2個月,在我們的SaaS平台上有1萬多人、700多個團隊、面向300多個客户做着數據標註工作。我們的AI輔助功能也能提升效率。”杜霖介紹道。
除了倍賽這種標註技術公司,互聯網大廠也正在深度參與數據標註工作。自2011年起,百度就自建數據採標團隊,支持內部AI業務。面對日益增長的數據標註需求,百度後續開始輸出其數據標註能力。
2018年9月,百度山西人工智能基礎數據項目(以下簡稱基地)與山西省轉型綜合改革示範區簽約。自簽約至今,百度已經為山西引入35家國內數據標註企業,通過導入百度自有的數據標註業務,為人員提供業務培訓,幫助標註企業實現了近億元營收。當前,基地從業人員達到2000餘人,是國內人員和產值規模最大的單體數據標註基地。
百度(山西)人工智能基礎數據產業基地
在此前的想象中,數據標註基地更像是“工廠裏冷冰冰的流水線”,標註員們在非常機械地工作。然而,當鈦媒體編輯走進百度位於山西的標註基地,看到一萬平方米的基地,按照NLP、無人駕駛、內容識別、語音識別等門類分佈着不同的辦公區域。每20-30位標註員在一間辦公室,都在對電腦上各色的數據文件進行標註,給人一種學生時代上電腦課的感覺。
百度(山西)人工智能基礎數據產業基地
基地的數據標註員李宇龍現在還記得他從業以來第一個,也是印象最深刻的項目。
他來自傳統行業,接觸的第一個項目就是“車道線“標註,這一數據往往被用來訓練自動駕駛技術——在自動駕駛車輛行駛途中會自行連續拍攝圖片,而標註員需要對圖片上車輛經過的車道線進行編號,其中一種是識別實線還是虛線,因為車輛僅可以在虛線變道,實線不行。
“項目的難點是城市道路比較複雜,因為車輛多了有些車道線可能會被遮蓋,還有在路口會遇到導流線,匝道和主道之間的分叉、交會是非常難的。”李宇龍對鈦媒體App表示。
李宇龍剛上手時,只拿到了軟件和一份規則,規則簡單陳述了要在哪些位置打點。起初他覺得這只是重複工,但隨着技能熟練度提升,他在標註上也面臨了更多考驗。
他最初接觸的車道線是2D圖片,但因為自動駕駛車上的激光雷達採集的是3D數據,這些從360度觀測的、具有立體點狀特徵的數據需要標註員具備空間思維能力。
“在3D數據中我們看到的只有一片點狀物,並不清楚具體是什麼,標註員需要準確找到這輛車,並且把它的輪廓、長寬高的細節都標註出來。在這個過程中,標註員要先從2D圖瞭解如何作業,記住規則口訣,搭配2D圖一起看3D環繞的圖形,這樣最快可以在一個星期內掌握。”
入行兩年後,李宇龍已經從數據標註員成為培訓師,日常工作就是根據項目特點對人員進行培訓。
據他介紹,從數據標註師做起,可以做到培訓師,甚至成為機器訓練師,要求會逐步提高。開始只需掌握標註技能,後來則需要發現缺失的數據或者程序bug。
像百度山西基地,大多數人都是專科背景,經過培訓可掌握通用型的拉框或打點任務。但涉及到醫療、金融、語言、法律等專業領域,往往需要具備專業知識的數據師來標註。
“外界總是説數據標註是勞動密集型,但我覺得它也是知識密集型的”,杜霖對鈦媒體表示。
比如醫療數據標註,會涉及到眼底數據、或腫瘤區域的圖像分割,這種看片子的任務往往要由有專業醫學背景的人負責;涉及到方言和外語的內容需要找掌握該門語言的標註員。金融領域則需要具備金融知識的專業人士來操作。
“像做法律文書標註或投融資事件分析時,就不能再找大專背景,得找相關專業的本科生。做醫療數據標註時,必須要找醫學院的學生來完成。”杜霖表示。
誤解四:薪資只是工人水平?數據標註師的薪水也往往被認為是極其低廉的。但實際上,由於任務的規模和難度不同、要求的時限不同、以及是否涉及到專業領域知識、數據標註員們的薪資也有很大的彈性空間。
“由於項目標準不同,計費方式也不同。有各種計費的組合,有些是依照點、線、區域,有些是參照每張圖,相對來説還是按計件收入算。”山西麟諾網絡科技有限公司李應維説道。
“我做車道線項目時,一天8個小時能賺300塊。這個收入在同事其實處於中等位置,收入最高的人一天可以破千”,李宇龍對鈦媒體表示,“每個項目會有個上手期,之後會越做越快,質量越來越高”。
同在基地的標註員郭梅,剛入行時一天最多隻能標註300根車道線,現在一天最多可以標註1700根,折算成收入便從每天70元漲到了每天300元以上。
“在基地裏最高有人月入過萬,不過收入均值會落在三千到五千之間,在山西太原是比平均水平好一些的。”百度(山西)人工智能基礎數據產業基地負責人尉赤對鈦媒體App表示。
尉赤也向鈦媒體回憶道,之前有項目做英文數據,要求標註員必須持有英語四級證書。
“這種項目本身價值高的、屬於專業領域的,整體收入也會更高。”
不過,數據標註行業分層較大,既有科技企業自建的標註基地、也有眾包平台、以及團體或個人的小作坊。外包給個人或小作坊的產量不穩定,分到的任務會更初級,計費更低,這也就構成了數據標註行業薪資的下限。
數據標註行業與AI的應用場景息息相關,隨着AI落地場景,對數據的要求也更加多樣而複雜。國內最早需要大規模標註、同時最易獲得的是人臉數據。與此同時,自動駕駛、智慧醫療、語音翻譯轉寫等領域的AI落地也催生了不同的數據需求。以自動駕駛為例:物體檢測所需數據量最少,只需要教AI認識幾千到一萬張圖像,而自動駕駛領域涉及生命安全,不允許犯錯,所需數據量往往在百萬級以上。
在問及數據標註的難點時,杜霖表示“如何理解客户需求,並嵌入其實際業務”是比較難的問題。
例如,同樣都是標註“人像”,實際方案卻不同。如果商場要統計客流量,只需要框選人物輪廓計數即可;如果要判斷是否有暴恐行為,就要對人物的動作行為進行分析;如果要判斷人物情緒,就要對其臉部表情進行標註; 而做瘦臉特效的話,就要對人臉輪廓進行精細打點。
誤解五:數據標註本身不需要AI?有意思的是,行業雖然越來越成熟,但數據採集和標註工作所佔的成本,正在AI模型的完整生命流程中逐漸上升。
據杜霖透露,2015年剛起步時由於AI工程師貴,數據採標成本僅佔總體的10%-20%,但由於AI工程師的成本降了不少,數據需求量又越來越大,現在採標成本在總成本中已經佔到了30%-40%。
因此,在從勞動密集型轉向技術密集型的同時,數據標註產業當然也在利用AI提升效率。
當前,將技術引入數據標註流程已是業內通用做法,讓訓練好的AI模型反哺人工標註,也是標註技術公司的優勢所在。
倍賽的數據標註SaaS平台,像Photoshop一樣可選擇標註界面和工具。倍賽還開發了一系列AI輔助的功能,內嵌在平台中供標註師使用。
比如AI輔助打點,以往標註師想要精細描摹一輛車的輪廓,需要手工打上30多個點。如果標註一輛車需要1分鐘,那麼標註圖片上所有物體則平均需要1小時。
“藉助AI輔助功能,現在只需在車的外輪廓上任意打4個點,系統就會自動把30個點全部打完,輪廓貼合的也很好。這樣人工打點就能減少到4個,只需進行微調,減少了一半用時,效率也提升了。”杜霖對鈦媒體表示。
AI輔助數據標註之智能語義分割(來源:倍賽數據)
當前,有監督的機器學習技術佔據了AI發展的主流,但學術圈已經開始向自監督學習模型進行探索——他們認為該模型能讓AI從數據標註中解脱出來,無需任何人工標註數據就能完成學習。
不過,在一些全新的領域,機器尚不能輔助人類工作,數據標註仍需人力完成。即便有了AI自動化標註工具,依然要由人來做審核質檢的最後一步。
“往往在較成熟的領域或熟悉的場景中會衍生出自動化工具,比如圖像中的物體識別。機器要經過大量訓練獲取這種知識,才能作為工具去輔助人工。如果是全新的應用場景,在AI還沒訓練好的情況下是沒法輔助的,”尉赤對鈦媒體App解釋道。
楊歌對鈦媒體App表示,清晰且標準化的數據更適合AI標註,模糊且繁瑣的社會性數據只能由人來進行。比如法院的案件要做歸檔處理,AI很難去判斷案件到底是刑事還是民事。涉及到道德、原則、好壞方面的內容,需要由人處理。
杜霖則進一步向鈦媒體App闡釋,在數據標註流程中,AI輔助的比重往往與算法的成熟度成正相關。比如説檢測人物時,一個熟練掌握“人像”的算法可完成70%的任務量,人工只需做30%。但用同樣的算法去框選“物品”,可能人工標註就要佔到80%。
問題在於,數據標註師在把AI“餵養”得更智能的同時,是否也在“革自己的命”?在未來,數據標註師這個新工種有可能被AI取代嗎?
杜霖認為,在數據標註領域,AI完全取代人力尚且遙遠。就拿自監督學習為例,這一技術仍屬於前沿探索領域,在全場景內還很難落地,尚未實現大規模普及,更不用説從根源上去取代人工標註。
“現在正從信息化邁向數據化,工業4.0會使數據標註更加工程化。這個階段還是以有監督式學習為主,它還沒有完全成熟,現在算法還在不斷迭代中。”楊歌表示。
但這個新興的、離AI最近的職業,會不會有更深刻的“被替代”焦慮?
一些從業者這樣回答:“數據標註師是最後一批被AI取代的羣體,因為總有些工作需要人來做。”
(本文首發鈦媒體App,作者 | 蘆依,編輯 | 趙宇航)