楠木軒

鬥米“拆分”新業務,魔變科技“立門户”

由 卯秀珍 發佈於 科技

魔變科技於2020年1月1日成立,團隊全部來自於鬥米,是鬥米投資的AI數據服務公司。同時,魔變科技與黑龍江綏稜縣政府共同打造300人規模全職自有標註中心。

説到人工智能數據採集標註業務,很多非專業人士可能不是很瞭解這個業務。舉個例子,我們日常在快遞櫃領取快遞,之前一般都是憑密碼或掃描二維碼領取,現在大部分都是基於掃描人臉領取,這個就是基於人臉識別鑑活。數據採集標註業務就是專門去採集相應數據標註後給計算機提供數據支持。基於後台的算法最終我們將快遞領取。為我們的生活提高了便利。

採集標註完之後,這些被採集標註的數據,就會被人工智能企業拿去“餵養”人工智能算法,數據多了之後,人工智能工具就會像人類一樣,識別語音、圖像等。比如,你使用小米的小愛音箱,你跟它説的每一句話,它之所以能識別出來,並不是因為它真的懂,而是它已經被大量的類似語料庫“訓練”過,才能識別我們的問題,當然如果在語料庫中或是無法檢索的問題,就無法回答。

數據採標業的“三國殺”

從上面的案例中不難發現,所有涉及人工智能研發、應用業務的公司,都需要用到被採集標註的數據,“餵養”自己的人工智能算法,讓它的識別度和應答程度更加接近真人。因此,人工智能數據採集標註業務,就像我們學習的教材、試題一樣,一定是非常基礎、不可或缺的一環且市場空間巨大的。

根據艾瑞諮詢最新的研究報告顯示,2018年中國人工智能基礎數據服務市場規模為25.86億元,其中,數據資源定製服務佔比86.2%,行業年複合增長率為23.5%,預計2025年市場規模將突破110億元。

根據智研發布的《2019-2025年中國數據標註與審核行業市場專項分析研究及投資前景預測報告》,截止到2018年,我國數據標註與審核行業中,有三分之一是AI公司內部的標註部門承擔,另外有三分之一被商務流程外包公司瓜分,剩下的三分之一由專門做數據採標的第三方公司。

儘管説目前是三足鼎立的局面,不過,未來隨着人工智能行業的發展,專門做數據採標的第三方公司市場份額可能會有更大的佔比。

魔變科技崛起的“三原則”

魔變科技主攻AI人工智能數據採集業務,項目內容包括圖像,音頻,文本,視頻相關方向的智慧家居、智慧交通、智能安防、自動駕駛等方面的數據採集標註業務。截止目前,數據採集標註業務覆蓋全國及海外,交付過億級合格數據,累計採集人次50萬。

之所以能在短短兩年的時間,就能取得如此快速的發展,除了有行業的快速發展紅利之外,魔變科技的主要優勢也非常明顯。

(1)合規先行

無論是數據的採集還是使用,合規是第一準則。數據的合規使用是該行業企業發展的底線,魔變科技在立項之初,便會嚴格審核客户資質。根據相關法律法規,對客户資質、客户採集需求、目的等相關信息獲得合法授權之後,才會實施採集工作。除此之外,魔變科技也會與被採集人員、數據採集執行人員分別簽訂授權書和承諾函,每一步都做到合法合規。

(2)保護隱私,用完即銷燬

除了數據使用上的合規,站在個人或者被採集者的角度看,個人隱私也格外受到大眾的重視。特別是移動互聯網快速發展的這幾年,國內外經常出現數據泄漏的社會事件。針對這種情況,魔變科技會在數據採集前,向被採集人員充分、詳細的介紹數據採集的相關規則,採集過程中不留存、不緩存,使用結束後,得到合作伙伴認可後即完全銷燬。

(3)標準化和規範化助力降本增效

數據採標行業的發展也在推動者人工智能行業的發展,在這個過程中,除了對數據採標的數量有要求,其實質量也非常關鍵。“餵養”人工智能算法的數據精準度越高,其算法的識別度也越高。

如何能提升數據的質量和數量,又不會增加成本、降低效率呢?魔變科技的制勝法寶就是標準化和規範化。在前文中曾提到,數據的採標主要是依賴於人工的採集標註,也就是説,投入的人力是制約數據質量和工作效率的關鍵要素。

魔變科技一方面依靠鬥米的大流量和專業的線下服務團隊,成為保障效率的支撐,而且,除了前文提到的黑龍江綏稜縣標註中心,魔變科技也在積極探索與其他地方政府的合作;另一方面,在質量把控上,魔變科技分六步:數據清洗、整理篩查、人工審核、多重質檢、結構化提取和交付驗收。

這樣一來,原本複雜的處理過程就變成了一條“流水線”,當年福特汽車“降本增效”的神話將會在魔變科技團隊中再次出現。

揭秘“數據教材”的誕生

魔變科技擅於用算法需求,真實還原場景的定製化數據採集標註業務。截至目前,已經為多家知名企業提供數據採集標註服務。

有一家客户公司需要一個車載異常行為數據集,但是並不能給出完整的需求,需要探索完善需求。面對這個難題,魔變科技根據相關項目的經驗,以及對前期駕駛行為的調查,研究出了相關異常行為的場景和行為,並給到客户公司先行確認,提供建議。在充分的交流討論之後,完善需求。

針對完善後的需求,魔變團隊制定了數據採標計劃、搭建採集場地,並且模擬採集場景,採集了一套完整的測試集。通過這套測試集對模型進行效果測試,根據反饋的結果,不斷改變數據集佔比。

為了又好又快的完成項目,助力客户企業的工作效率,魔變科技以日交付採集數據,次日客户公司審核通過後,立即進入數據標註流程,標註和質檢同步進行,大大縮短了工作時間,提高效率。

在數據驗收結束後,由公司DPO(數據安全)部門相關人員對備份數據進行銷燬處理,並將相關證明材料發送至客户確認。 

在整個採標過程中為了保證數據安全性,魔變科技採標基地24小時監控,所有進入工作區人員手機上交,進入採標基地均需通過安檢,並做到同類項目交付團隊不重合。

最後,魔變科技在原定的交付期內,完成百萬級數據交付,交付合格率99%,超預期完成項目。

從上面的案例中可以感受到,魔變科技就像一個聰明、聽話的“乖孩子”,每一步操作都非常規範、嚴謹,執行過程中的每一個細節都能考慮全面,真正做到合規、安全、保密。 

如今,魔變科技已經正式獨立成為一家公司,這就像剛走出大學校園的青年,朝氣蓬勃,開始獨自承擔責任,不斷“進化”成長。