擊碎數據標註五大誤解，這門生意真不是你想象的“富士康”| 鈦媒體深度

圖片來源@Unsplash

“我覺得標註行業一直在承受誤解，特別是在被貼上人工智能界‘富士康’的標籤之後。”

“外界會覺得：AI這麼高大上，背後卻是一羣打標籤的人。（他們）想刻意製造反差，就直接（把標註）定義成勞動密集型行業。”見到鈦媒體編輯時，倍賽數據CEO杜霖忍不住吐槽道，“我不想讓人再去看小作坊，想讓人看看業內還有我們這種技術公司。”

2015年前後，AlphaGo橫空出世，掀起了國內AI創業的浪潮。

五年間，人工智能行業在聚光燈下飛奔，跑出實驗室、實現”AI+產業“落地，併成為新基建的重要組成。AI行業也經歷了資本的冰與火，逐漸走向理性。

但作為AI產業鏈的最上游，數據標註行業卻一直遊離在聚光燈外，很少被人提起。

即便外界有觀感，也大多想象這個行業絕大多數公司會是“富士康”一樣的流水線，亦或是三四線城市的小作坊。

就連劉慈欣都會説：現在的人工智能，前面有多少智能後面就有多少人工。數據標註行業，更多被用來調侃人們對AI的期望與差距。

但實際上，這個行業已經走過了小作坊的粗放時期，開始走進“技術致勝”的時代。

誤解一：數據標註只靠人力

2017年，《經濟學人》發表的封面文章中提出了一個疑問：數據更像石油還是陽光？

文章作者認為，數據是“世界上最寶貴的資源”，數據是未來的石油。但另一方面，數據也具有公共物品的特徵，人們應該對其進行廣泛的收集和利用，以最大程度地創造財富。在這個意義上，數據就如陽光一般。

如同石油和陽光，數據不經過煉化、轉換沒法應用，而最初採集數據、處理數據的人，就是數據標註師們。

作為AI應用大國，國內的數據標註公司，與AI創業潮近乎是同時起步。剛起步時，國內AI大多處於實驗室研發階段，所需數據量小，也並無定製化需求，因此行業門檻較低，大多以勞動密集型的作坊出現，這些“小作坊”以外包（BPO）業務為主，也給外界留下了“富士康”的印象。

而現在隨着AI大規模落地，向產業更深更廣延伸，使得標註場景更細分、數據類型更復雜，行業開始跨過野蠻生長，進入精耕細作。整個AI基礎數據服務產業正在經歷轉型升級——更多勞動密集型企業正面臨生死關頭，更多的技術型公司正在突出重圍。

艾瑞諮詢今年發佈的報告顯示，2019年中國AI基礎數據服務行業市場規模可達30.9億元，預計2025年市場規模將突破100億元，年化增長率達到21.8%。

報告指出，中小型數據供應商的整體體量仍然可觀，但隨着業務門檻提升、客户需求多樣化，越來越多中小型供應商在苦惱生存問題，這一羣體在未來1-2年內將迎來“倒閉潮”。

杜霖所在的倍賽數據（BasicFinder，以下簡稱倍賽）就是家典型的標註技術公司。

這家公司定位是AI的基礎設施供應商，構建從數據標註、數據管理到建模的一系列底層基礎設施。

杜霖團隊的核心成員都是機器學習和AI從業者，但2015年國內AI創業熱時，他們卻選擇了AI產業鏈的最上游——數據標註。

“我們一直堅信一句話叫code is cheap（代碼是最便宜的）。隨着Google TensorFlow、Pytorch等開源框架的推出，AI公司建模的門檻會越來越低，從前海外名校博士的工作現在本科學生都可以做。”杜霖對鈦媒體App表示

“如果我們做AI技術公司，就要在模型甚至更底層的神經網絡研究中發力。而我們看到的更大的藍海其實是數據，未來算法門檻越來越低，而數據則會越來越高。“

杜霖表示，大量數據標註企業都強調解決就業，而非技術屬性，這也是行業被視為勞動密集型的原因之一，但這並不代表這個賽道里不需要技術。

“京東的主要人員構成是快遞小哥對不對，但京東是勞動密集型企業嗎？本質上它還是技術驅動的。”

當前，隨着AI建模能力外溢，技術門檻降低，不僅科技公司、各行各業對數據的需求都在增長。科技公司想通過巨大的數據池構建模型壁壘，也有更多企業開始重視自有業務數據的標註及模型迭代，對標註系統的私有化部署或工具SaaS需求開始增長。

一位不願具名的AI從業者對鈦媒體App表示，國內一些頭部AI公司宣稱建立了模型壁壘，但本質上是由於積累了絕大部分數據而形成的數據壁壘，其實各家的模型並沒有代際上的差異。

杜霖也強調了數據量對建模效率的影響。“請一羣厲害的博士去攻克一個場景，或許僅能提升不到5%的效率，但如果能在數據端多20%的數據，效果會比從底層算法研發提升更多。”

在他看來，標註企業的核心競爭力還是技術。“這個行業經歷了大洗牌，勞動密集、壓榨工資的企業被淘汰，最後變成技術主導。技術提升效率、產生了成本優勢，通過理解客户需求、再加上自有技術和平台，標註企業就能形成自己的壁壘。”

誤解二：數據標註不被資本重視？

但“勞動密集型”這一刻板印象，依然存在於數據標註這個產業中。體現在投融資上尤為明顯。

杜霖認為，國外比較認可標註公司的技術價值，北美數據標註公司與國內相關公司的估值至少相差10倍。“國外做標註工具軟件的企業已經在投融資中火起來了，我們也就是千萬級人民幣，他們融資規模普遍比我們大，基本都是幾千萬美金起步。”

據鈦媒體App不完全統計，海外技術驅動型公司已經受到關注。其中，黑馬企業Scale AI在C輪融資1億美元后，投後估值已超10億美元，躋身獨角獸行列。不少標註公司被企業收購，比如老牌標註公司Figure Eight也3億美金被Appen收購，初創的Mighty AI被Uber全資收購。今年3到4月，海外的DefineCrowd、LabelBox紛紛完成數千萬美元融資。

而國內標註公司中，愛數智慧在A輪融資後的估值約為2億元人民幣，這在同類公司中已經屬於融資表現較好的了，國內同類公司融資額基本在千萬級人民幣左右。

鈦媒體整理了部分數據標註公司投融資情況，數據來自天眼查以及公開資料

五嶽資本（N5Capital）董事總經理蒲俊臣對鈦媒體App表示，與北美同類型公司產生估值差，是因為國內大部分投資者將標註技術公司等同於標註業務公司，加之部分媒體對行業勞動密集屬性的刻畫，使得提升行業效率的技術價值沒有被公允認可。不過，隨着投資者對行業認識深入，這種差距會逐漸減少。

對於國內標註公司是否有投資價值，投資方也有不同看法。

在蒲俊臣看來，標註技術型公司仍有投資價值。

“一方面，AI公司在算力、算法方向投入的增量梯度逐漸下降，未來市場存在巨大的數據需求；另一方面，這類公司的智能標註工具不僅提升了數據的產出效率，同時也在數據、輔助標註模型的迭代中打造出了完善的AI基礎設施。AI的未來就是數據到模型的無縫輸出。”

星瀚資本創始合夥人楊歌則認為，要判斷投資價值，最重要的是看產業能否閉環。

“要看上下游公司是否有長期的經濟需求、會不會長期使用這個工具、工具成熟後會不會自己做，邊際價值會不會遞減等。評判一家數據標註公司，拋開上下游去評判是沒有價值的。所以投資時，不能把標註了多少數據當做資產，一定要從供需角度去判斷其價值。”

楊歌對鈦媒體App表示，數據標註行業雖然to B，但和供應鏈、金融貿易等行業相比，需求存在不穩定性，且容易被替代。即便是做SaaS的技術公司，也很難有絕對的技術壁壘，基本屬於營銷導向或客户關係導向。而且這種服務型公司通常是乙方，市場把控和定價能力較弱，所以風險比較高，這也是投資時要關注的點。

誤解三：數據標註不需要高學歷

在以往的印象中，數據標註從業者往往學歷不高、工作環境惡劣，但這只是行業的一枚切片，事實的一角。

那些“餵養”AI的人們，既有標註基地的標註員，也包括技術公司中做系統開發維護的程序員們。一個標註項目，往往先給到標註技術公司或眾包平台，再由他們派遣給自營標註基地或外包人員。

以倍賽為例，公司當前有兩條業務線，一條是自研的數據標註SaaS平台，另一條是為數據保密性強的大中型企業研發數據標註的私有化版本。公司算法工程師的日常工作，就是開發維護平台，並不斷訓練AI模型來輔助人工標註。

倍賽北京辦公室都是SaaS平台的研發人員，有着紐約大學、上海交大、哈工大和北航的教育背景。鈦媒體編輯到訪時，一位算法工程師正在優化SaaS系統。系統中“物體自動識別”的能力已經可以自動識別並標註80種物體，該工程師正在“訓練”AI識別更多的物體。

在工程師的打磨下，當前SaaS平台已具備從數據採集、打標籤到直接生成模型的能力。倍賽自營的20多家數據標註基地和眾包人員，均在其自有SaaS平台上完成標註工作。

“最近2個月，在我們的SaaS平台上有1萬多人、700多個團隊、面向300多個客户做着數據標註工作。我們的AI輔助功能也能提升效率。”杜霖介紹道。

除了倍賽這種標註技術公司，互聯網大廠也正在深度參與數據標註工作。自2011年起，百度就自建數據採標團隊，支持內部AI業務。面對日益增長的數據標註需求，百度後續開始輸出其數據標註能力。

2018年9月，百度山西人工智能基礎數據項目（以下簡稱基地）與山西省轉型綜合改革示範區簽約。自簽約至今，百度已經為山西引入35家國內數據標註企業，通過導入百度自有的數據標註業務，為人員提供業務培訓，幫助標註企業實現了近億元營收。當前，基地從業人員達到2000餘人，是國內人員和產值規模最大的單體數據標註基地。

百度（山西）人工智能基礎數據產業基地

在此前的想象中，數據標註基地更像是“工廠裏冷冰冰的流水線”，標註員們在非常機械地工作。然而，當鈦媒體編輯走進百度位於山西的標註基地，看到一萬平方米的基地，按照NLP、無人駕駛、內容識別、語音識別等門類分佈着不同的辦公區域。每20-30位標註員在一間辦公室，都在對電腦上各色的數據文件進行標註，給人一種學生時代上電腦課的感覺。

百度（山西）人工智能基礎數據產業基地

基地的數據標註員李宇龍現在還記得他從業以來第一個，也是印象最深刻的項目。

他來自傳統行業，接觸的第一個項目就是“車道線“標註，這一數據往往被用來訓練自動駕駛技術——在自動駕駛車輛行駛途中會自行連續拍攝圖片，而標註員需要對圖片上車輛經過的車道線進行編號，其中一種是識別實線還是虛線，因為車輛僅可以在虛線變道，實線不行。

“項目的難點是城市道路比較複雜，因為車輛多了有些車道線可能會被遮蓋，還有在路口會遇到導流線，匝道和主道之間的分叉、交會是非常難的。”李宇龍對鈦媒體App表示。

李宇龍剛上手時，只拿到了軟件和一份規則，規則簡單陳述了要在哪些位置打點。起初他覺得這只是重複工，但隨着技能熟練度提升，他在標註上也面臨了更多考驗。

他最初接觸的車道線是2D圖片，但因為自動駕駛車上的激光雷達採集的是3D數據，這些從360度觀測的、具有立體點狀特徵的數據需要標註員具備空間思維能力。

“在3D數據中我們看到的只有一片點狀物，並不清楚具體是什麼，標註員需要準確找到這輛車，並且把它的輪廓、長寬高的細節都標註出來。在這個過程中，標註員要先從2D圖瞭解如何作業，記住規則口訣，搭配2D圖一起看3D環繞的圖形，這樣最快可以在一個星期內掌握。”

入行兩年後，李宇龍已經從數據標註員成為培訓師，日常工作就是根據項目特點對人員進行培訓。

據他介紹，從數據標註師做起，可以做到培訓師，甚至成為機器訓練師，要求會逐步提高。開始只需掌握標註技能，後來則需要發現缺失的數據或者程序bug。

像百度山西基地，大多數人都是專科背景，經過培訓可掌握通用型的拉框或打點任務。但涉及到醫療、金融、語言、法律等專業領域，往往需要具備專業知識的數據師來標註。

“外界總是説數據標註是勞動密集型，但我覺得它也是知識密集型的”，杜霖對鈦媒體表示。

比如醫療數據標註，會涉及到眼底數據、或腫瘤區域的圖像分割，這種看片子的任務往往要由有專業醫學背景的人負責；涉及到方言和外語的內容需要找掌握該門語言的標註員。金融領域則需要具備金融知識的專業人士來操作。

“像做法律文書標註或投融資事件分析時，就不能再找大專背景，得找相關專業的本科生。做醫療數據標註時，必須要找醫學院的學生來完成。”杜霖表示。

誤解四：薪資只是工人水平？

數據標註師的薪水也往往被認為是極其低廉的。但實際上，由於任務的規模和難度不同、要求的時限不同、以及是否涉及到專業領域知識、數據標註員們的薪資也有很大的彈性空間。

“由於項目標準不同，計費方式也不同。有各種計費的組合，有些是依照點、線、區域，有些是參照每張圖，相對來説還是按計件收入算。”山西麟諾網絡科技有限公司李應維説道。

“我做車道線項目時，一天8個小時能賺300塊。這個收入在同事其實處於中等位置，收入最高的人一天可以破千”，李宇龍對鈦媒體表示，“每個項目會有個上手期，之後會越做越快，質量越來越高”。

同在基地的標註員郭梅，剛入行時一天最多隻能標註300根車道線，現在一天最多可以標註1700根，折算成收入便從每天70元漲到了每天300元以上。

“在基地裏最高有人月入過萬，不過收入均值會落在三千到五千之間，在山西太原是比平均水平好一些的。”百度（山西）人工智能基礎數據產業基地負責人尉赤對鈦媒體App表示。

尉赤也向鈦媒體回憶道，之前有項目做英文數據，要求標註員必須持有英語四級證書。

“這種項目本身價值高的、屬於專業領域的，整體收入也會更高。”

不過，數據標註行業分層較大，既有科技企業自建的標註基地、也有眾包平台、以及團體或個人的小作坊。外包給個人或小作坊的產量不穩定，分到的任務會更初級，計費更低，這也就構成了數據標註行業薪資的下限。

數據標註行業與AI的應用場景息息相關，隨着AI落地場景，對數據的要求也更加多樣而複雜。國內最早需要大規模標註、同時最易獲得的是人臉數據。與此同時，自動駕駛、智慧醫療、語音翻譯轉寫等領域的AI落地也催生了不同的數據需求。以自動駕駛為例：物體檢測所需數據量最少，只需要教AI認識幾千到一萬張圖像，而自動駕駛領域涉及生命安全，不允許犯錯，所需數據量往往在百萬級以上。

在問及數據標註的難點時，杜霖表示“如何理解客户需求，並嵌入其實際業務”是比較難的問題。

例如，同樣都是標註“人像”，實際方案卻不同。如果商場要統計客流量，只需要框選人物輪廓計數即可；如果要判斷是否有暴恐行為，就要對人物的動作行為進行分析；如果要判斷人物情緒，就要對其臉部表情進行標註；而做瘦臉特效的話，就要對人臉輪廓進行精細打點。

誤解五：數據標註本身不需要AI？

有意思的是，行業雖然越來越成熟，但數據採集和標註工作所佔的成本，正在AI模型的完整生命流程中逐漸上升。

據杜霖透露，2015年剛起步時由於AI工程師貴，數據採標成本僅佔總體的10%-20%，但由於AI工程師的成本降了不少，數據需求量又越來越大，現在採標成本在總成本中已經佔到了30%-40%。

因此，在從勞動密集型轉向技術密集型的同時，數據標註產業當然也在利用AI提升效率。

當前，將技術引入數據標註流程已是業內通用做法，讓訓練好的AI模型反哺人工標註，也是標註技術公司的優勢所在。

倍賽的數據標註SaaS平台，像Photoshop一樣可選擇標註界面和工具。倍賽還開發了一系列AI輔助的功能，內嵌在平台中供標註師使用。

比如AI輔助打點，以往標註師想要精細描摹一輛車的輪廓，需要手工打上30多個點。如果標註一輛車需要1分鐘，那麼標註圖片上所有物體則平均需要1小時。

“藉助AI輔助功能，現在只需在車的外輪廓上任意打4個點，系統就會自動把30個點全部打完，輪廓貼合的也很好。這樣人工打點就能減少到4個，只需進行微調，減少了一半用時，效率也提升了。”杜霖對鈦媒體表示。

AI輔助數據標註之智能語義分割（來源：倍賽數據）

當前，有監督的機器學習技術佔據了AI發展的主流，但學術圈已經開始向自監督學習模型進行探索——他們認為該模型能讓AI從數據標註中解脱出來，無需任何人工標註數據就能完成學習。

不過，在一些全新的領域，機器尚不能輔助人類工作，數據標註仍需人力完成。即便有了AI自動化標註工具，依然要由人來做審核質檢的最後一步。

“往往在較成熟的領域或熟悉的場景中會衍生出自動化工具，比如圖像中的物體識別。機器要經過大量訓練獲取這種知識，才能作為工具去輔助人工。如果是全新的應用場景，在AI還沒訓練好的情況下是沒法輔助的，”尉赤對鈦媒體App解釋道。

楊歌對鈦媒體App表示，清晰且標準化的數據更適合AI標註，模糊且繁瑣的社會性數據只能由人來進行。比如法院的案件要做歸檔處理，AI很難去判斷案件到底是刑事還是民事。涉及到道德、原則、好壞方面的內容，需要由人處理。

杜霖則進一步向鈦媒體App闡釋，在數據標註流程中，AI輔助的比重往往與算法的成熟度成正相關。比如説檢測人物時，一個熟練掌握“人像”的算法可完成70%的任務量，人工只需做30%。但用同樣的算法去框選“物品”，可能人工標註就要佔到80%。

問題在於，數據標註師在把AI“餵養”得更智能的同時，是否也在“革自己的命”？在未來，數據標註師這個新工種有可能被AI取代嗎？

杜霖認為，在數據標註領域，AI完全取代人力尚且遙遠。就拿自監督學習為例，這一技術仍屬於前沿探索領域，在全場景內還很難落地，尚未實現大規模普及，更不用説從根源上去取代人工標註。

“現在正從信息化邁向數據化，工業4.0會使數據標註更加工程化。這個階段還是以有監督式學習為主，它還沒有完全成熟，現在算法還在不斷迭代中。”楊歌表示。

但這個新興的、離AI最近的職業，會不會有更深刻的“被替代”焦慮？

一些從業者這樣回答：“數據標註師是最後一批被AI取代的羣體，因為總有些工作需要人來做。”

（本文首發鈦媒體App，作者 | 蘆依，編輯 | 趙宇航）