資料為王的時代，NLP資料產業會是下一個藍海

在資料“坐莊”NLP的大背景下，大量的商業機會呈現，而客觀上的高要求阻卻了大量低門檻入場的玩家，NLP資料相對於CV更像一個藍海。

工作人員齊整坐好，每個人都對著電腦全神貫注，一件又一件的“東西”在眼前劃過，經過標準化處理就轉到下一流程……這實際上是人工智慧行業裡的資料標註辦公區一角。

由於深度學習的研究方向，人力密集型的資料標註工作是推進人工智慧技術落地的重要環節之一。

很長一段時間以來，在過往AI的發展中資料的採集與標註行業沒有過多地被關注，畢竟，與演算法、算力這些高大上的東西相比，AI資料的生產總帶著那麼幾分與AI技術的“科技感”截然不同的形象。

然而，隨著AI的發展走向縱深，更多人發現這是一個誤解，AI資料產業正在向著高專業化、高質量化的方向蓬勃發展。

根據2018年智研發布的《2019-2025年中國資料標註與稽核行業市場專項分析研究及投資前景預測報告》，2018年該行業市場規模已達到52.55億元，2020年市場規模有望突破百億。有行業人士估計AI專案中會有10%的資金用於資料的採集和標記，2020年，資料標註行業最終市場規模將達到150億。

而分享市場的，既有BAT、京東等網際網路巨頭，也有云測資料這種專注於高質量交付的專業化資料平臺。

龐大的前景下，資料採集與標註也可以分NLP（自然語音處理）、CV（計算機視覺）等幾個部分，隨著資料需求量的增大、對資料質量要求的提高，其中的NLP越來越成為“硬骨頭”，AI資料產業終將面臨它帶來的難題，也承襲這種難題下空出的市場空間。

AI的資料、演算法和算力“輪流坐莊”，NLP到了“資料為王”的時代

晶片製程以及大規模並聯計算技術的發展，使得算力快速提升後，AI能力的提升主要集中到了演算法和資料上（算力提升當然還有價值，只是相對價值那麼明顯了，例如不可能對一個物聯網終端裝置有太多的算力設定要求）。

這方面，多年以來，人工智慧技術都呈現“輪流坐莊”的螺旋提升關係：

演算法突破後，可容納的資料計算量往往變得很大，所以會迎來一波資料需求的高潮；而當AI資料透過某些方式達到一個新的程度時，原來的演算法又“不夠了”，需要提升。

2018年11月，Google AI團隊推出劃時代的BERT模型，在NLP業內引起巨大反響,認為是NLP領域裡程碑式的進步，地位類似於更早期出現的Resnet相對於CV的價值。

以BERT為主的演算法體系開始在AI領域大放異彩，從那時起，資料的重要性排在了NLP的首位。

加上兩個方面的因素，這等於把NLP資料採集與標註推到了更有挑戰的位置上。

一個因素，是NLP本身相對CV在AI資料方面的要求就更復雜。

CV是“感知型”AI，在資料方面有Ground Truth（近似理解為標準答案），例如在一個圖片中，車、人、車道線等是什麼就是什麼，在採集和標註時很難出現“感知錯誤”（圖片來源：雲測資料）

而NLP是“認知”型AI，依賴人的理解不同產生不同的意義，表達出各種需要揣測的意圖，Ground Truth是主觀的。

例如，“這房間就是個烤箱”可能是說房間的佈局不好，但更有可能說的是裡邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點，應用於AI時，需要被多方位、深度探索。

另一個因素，是AI資料的價值整體上由“飼料”到“奶粉”，對NLP而言這更有挑戰。

大部分演算法在擁有足夠多常規標註資料的情況下，能夠將識別準確率提升到95%，而商業化落地的需求現在顯然不止於此，精細化、場景化、高質量的資料成為關鍵點，從95% 再提升到99% 甚至99.9%需要大量高質量的標註資料，它們成為制約模型和演算法突破瓶頸的關鍵指標。

但是，正如雲測資料總經理賈宇航所言，“影象採標有很強的規則性，按照規範化的指導文件工作即可，但NLP資料對應的是語言的豐富性，需要結合上下文等背景去理解和處理。”在高位提升這件事上，NLP資料更難。

例如，在訂機票這個看似簡單的AI對話場景中，想訂票的人會有多種表達，“有去上海的航班麼”，“要出差，幫我查下機票”，“查下航班，下週二出發去上海”……自然語言有無窮多的組合表現出這個意圖，AI要“認得”它們，就需要大量高質量的資料的訓練。

由此，我們再來理解商業機會。

資料採集與標註的公司有很多，從巨頭的“副業”到AI資料專業化平臺，總體而言主要玩家如圖所示：

除此之外，更多中小玩家甚至幾十人的草臺班子數不勝數。在中國，目前全國從事資料標註業務的公司約有幾百家，全職的資料標註從業者有約20萬人，兼職資料標註從業者有約100萬人。

易入門、難精通，而上述兩大因素決定NLP資料面臨巨大的挑戰，做得好的就更少。

在資料“坐莊”NLP的大背景下，空出了大量的商業機會，而客觀上的高要求阻卻了大量低門檻入場的玩家，NLP資料相對於CV更像一個藍海。

打破單純“體力活”標籤，NLP資料採集與標註從四個方面自我演進

有機會就總有人會進場，不久前，中國人工智慧高峰論釋出了中國人工智慧科技服務商50強，既有商湯、曠視這種明星企業，也出現了榜單內唯一的AI資料服務商雲測資料，這顯示AI資料正在進入“主流圈”，在藍海中嘗試跑出獨角獸企業。

當然，前提是平臺能夠解決好NLP資料的痛點問題。

事實上，CV的“感知”需求使得“體力活”可能就能夠勝任大多資料生產工作（誰不認識一輛車、一個人呢），而“認知”的NLP資料要突圍，只是“體力活”早已經不夠。

至少目前來看，行業玩家在四個方面有所動作，或正在解決NLP資料痛點問題。

1. 業務模式，用“定製化”迎合商業落地期的NLP

曾有媒體向Google工程師提起M-Turk的時候，他表示“我們不敢用Turk標註”，因為回收的資料良莠不齊。

眾包模式（在公開平臺釋出任務，自由申領）是曾經的AI資料產業主流，擁有資料豐富性和多樣性的優勢，不過資料質量比較難以把控。在資料精細化要求的今天，很多需求方都轉向了“定製化”（一對一，以專案制的方式完成交辦的資料任務）服務模式。

例如，雲測資料的“定製化”服務模式，跟的就是需求方複雜、精深而個性化的資料要求。具體到NLP，在資料採集上滿足特定人物（老人、婦女、小孩）、特定場景（家居、辦公、商業等）、不同方言的聲音/文字資料採集；在資料標註上進行需求的對接、理解清楚場景化要求再分發儘量具體的規範指導（同樣一句話在不同交流目的中可能需要標註不同的內容，例如“我沒錢”在信貸服務中意味著潛在客戶，在理財服務中則表達拒絕的態度）。

當然，眾包模式也有它的優點，能夠輕量化承載大量相對簡單的資料需求，而場景化的定製模式則更專業，主要依靠自有員工和基地，像雲測資料就在華東、華南、華北擁有自建標註基地，這種玩法顯然更適合匹配客單價更高的場景化、定製化需求，NLP是典型。

2. 管理流程，從“粗放製造”到“精益製造”

既然資料採集與標註很像是工廠的流水線，那麼如果要提升資料的精準度，其實就如同“製造業”升級那樣需要進行“粗放製造”到“精益製造”的轉變，首要體現在管理流程的最佳化上。

無論是從平臺接取任務的眾包團隊，還是直接對接需求方的定製化服務平臺，至少，草臺班子式的做法已經不適合NLP對資料的要求。

高精準度、高效率，都依賴管理流程的最佳化，以雲測資料為例，具體做法包括這幾個大方向：

標註、稽核、抽檢的層層把關：標註人員的結果交由另一批人進行稽核，打回不合格的，最終再由質檢進行抽檢，大體如此，可能步驟更復雜；

人才型別的基礎分類：文字、語音、影象標註人員不相互混用；

擅長場景的優先任務派發：在同等條件下，擅長對應場景的人優先派發給任務。

例會制度：如同精細化管理的製造業一樣，早會、晚會、週會、月會，總結問題、提醒改進。

……

而無論如何，管理流程的事，說得再多，日常工作的落實才是最重要的。

3. 職業技能，專業培訓擺脫“低水平重複”

“不要門檻”意味著更低的價值，在人員個人能力上，NLP在逐漸拋棄那些“無門檻”入局的人，尤其是在特定的場景需求下。

例如，這是一個非常簡單的NLP資料標註例項：

它的需求可能只有初中語文即可。但是，NLP的資料需求早已超過這樣的標註太多。

例如，客服詢問使用者是否購買此商品時，“我要和家人商量一下”、“我會考慮”、“我現在不方便，你一會兒再打過來”，標註人員得準確標註出暫不購買，暫不考慮，拒絕購買或者興趣較大等多種意圖。

一方面，這依賴於平臺進行的場景深挖，這也是為什麼雲測資料智慧客服單個場景的意圖標註就分為10-20個大類、上百個子類，根據業務需求可能還會有進一步的標註細分，如此資料標註可以更細化、直達需求。

另一方面，這繞不開人員能力的持續培訓，把“幹體力”的標註工人轉化成懂一些專業的業務人員，典型的如雲測資料在金融服務領域通過幾個月的專業培訓，培養出銷售人員視角去揣測使用者話語中的意圖。

舉例來看，在客服溝通中，使用者回饋“我在開車”這短短的一個語料資料，可能需要標記出“有車一族”、“司機”、“沒有明顯拒絕”、“可能有興趣”等多個標註給NLP演算法，按雲測資料自己的說法，其培訓達到的目標，是讓標註員工達到成為專業員工的水準。

顯然，在NLP標註資料的初期階段將各大金融機構的AI客服機器人訓練到大致相當的初級認知智慧水平後，再進行提升、提高銷售轉化或者服務滿意度，都需要質量更高、針對特定需求更強的NLP標註資料。

值得一提的是，在NLP領域不是所有標註都能透過人員培訓來解決，醫療、法律等過於專業的領域可能還是依賴專家標註（邀請醫生、律師等參與標註），那是一個更復雜的故事了。

4. 工具使用，持續加碼“便捷化”

工欲善其事必先利其器，NLP的標註雖然不像CV有很多空間維度的資料需求，但工具提升便捷度進而提升標準效率和準確性的價值仍然不可小覷。

這方面，巨頭的腳步更早，在國外，Google Fluid Annotation一度是NLP標註“最好使”的工具，國內，大廠和專業平臺的工具也被廣泛使用，雲測資料在工具上的創新優勢很明顯。

總體而言，標註工具適合自己的才是最好的。這種根據定製化需求開發貼合實際需要的資料工具對場景化資料的生產，發揮著重要作用。

無論如何，持續加碼“便捷化”，是一個不會停止的過程。

NLP資料產業的機會，將會是誰坐莊？

在AI領域，雖然有大廠走在前列，但市場並沒有被巨頭壟斷，中型AI平臺也常常嶄露頭角成為主角。以AI資料服務領域為例，像雲測資料這種專注於企業服務的第三方獨立平臺，以客戶為中心的企業基因，一直貫穿在資料交付的始終。

一個典型的表現是，高精確度的NLP資料需要以企業服務的心態與客戶仔細對接需求，例如，使用者需求的場景是什麼，如果是訂票，AI問答應該主要導向訂票，對應的NLP資料也要往這個方向去標註。

這一過程中需要資料服務人員對需求進行拆解、預判甚至提前給出建議，與客戶反覆溝通確認達成一致後，才能真正地去作業。大廠偏重於技術架構、前沿技術開發、雲伺服器中心大規模併發能力等建設，很難俯下身好好完成這件事，這時候，AI資料專業化平臺更有優勢。

此外，影響競爭格局走向的還有資料服務的安全性。

在資料採集與標註行業，複製一份資料在技術上非常簡單，也能節省大量的人力和運營成本，但給客戶帶來的損失卻不小（尤其是被競爭對手拿到），保證資料隱私性和安全性,在AI激烈的競爭環境下幾乎成為某些客戶的首要決策標準。

總而言之，高專業度、高精準度、高效率、強安全才能贏得AI資料客戶尤其是NLP資料客戶的選擇，不論巨頭還是AI資料專業化平臺在行業爆發式增長的關口都在努力，落實和推進了諸多動作。NLP資料產業正處在藍海，一個不會由巨頭坐莊的藍海。

作者：李永華；微信公眾號：智慧相對論（ID：aixdlun）

本文由 @智慧相對論原創釋出於人人都是產品經理，未經許可，禁止轉載。

題圖來自 Unsplash，基於CC0協議