數據標註員 隱身於人工智能背後的工兵
圖像標註員在屏幕上標出汽車位置。
當人們向智能設備發出一條語音指令、拍張照片供設備識別時,一般不會想到,這背後有大量人枯燥而繁瑣的工作。做這類工作的人被稱為“數據標註員”。
疫情防控期間,哈爾濱有這樣一羣人,他們選擇了不用到單位打卡,工作時間自由的工作。他們通過平台或羣領受任務,然後將任務完成並領取報酬,工作程序和工作效果都是“看不見”的,就像是存在於AI和數字經濟背後的“幽靈工作”。可是,當前數據標註行業對人力需求極大,這一新興行業正藴藏着巨大的就業和創業機會。
語音標註員:將“牛德華”變成“劉德華”
語音標註員每天要聽海量的錄音。
蔣齊是一名語音標註員,這是一個隨着智能語音交互設備的普及而新出現的職業。他的主要工作就是將智能語音交互設備無法識別的字、詞、句子進行標註,然後“翻譯”過來,再發送回去以便智能設備進行學習。
這個看起來高大上的工作,蔣齊説其實很簡單,“比如一個有口音的人對智能音箱或交互設備説‘播放一首牛德華的歌’,智能設備需要分析出用户真正的意思是想要聽一首劉德華的歌。”蔣齊的工作就是將設備收集到的語音“牛德華”標註成劉德華,再發回給智能設備研發單位,供智能設備進行學習,使智能設備下次聽到“牛德華”時,能準確地轉化為“劉德華”。
蔣齊每天在羣裏領取包含各種詞、句的數據包,然後進行標註。他每次在羣裏領取一個包含150條語音的數據包,完成對數據包內語音的標註後再領取下一個數據包。
為了能夠完成更多的任務,蔣齊平時很少參加娛樂活動。“我最後一次和別人在外面吃飯還是去年秋天幾個同鄉約我在樓下的火鍋店吃火鍋。我平時的時間基本上都用來領數據包做任務。”
蔣齊表示,語音數據標註是一項完全沒有技術含量的累活,每標註1個小時的有效時長語音,能得到100元的報酬,一個月可以賺到3000元到3500元。
在BOSS直聘網站上,記者以“數據標註員”為關鍵詞,搜索到近200條相關職位的招聘信息。這些職位大多為兼職崗位,不用到公司上班。一些崗位也不要求應聘者的學歷,只要求應聘者能夠熟練使用office等辦公軟件。報酬按有效標註時長給付,多為每小時100元至110元。
記者發現,招聘企業對應聘者只要求能夠“對標註結果進行質量評估,並反饋標註結果”“智能語音、圖片等相關數據的語義理解及標註”“對已標註數據的清洗、保證標註數據的正確率”。
記者在線向一家招聘企業詢問,“什麼是數據清洗?”得到的答覆是:使用軟件對數據進行操作,不是很難。
蔣齊告訴記者,這些招聘單位大多是分包商或數據工廠,他們從AI研發單位拿到數據標註部分的業務,然後,再將這些業務拆解成若干數據包,交給應聘者來完成。除此之外,有些個人可以直接從設備商那裏得到這部分業務,然後自己組建團隊,建立微信羣,由羣內的成員來完成。“我現在就是通過微信羣領取任務。”
圖像標註員:教人工智能認識新世界
工作中的劉佳彤。
今年31歲的劉佳彤,也是一名數據標註員,但她標註的內容不是語音而是圖片,偶爾也會標註一些視頻影像。她與蔣齊不同的是,她不是通過羣來領取任務,而是通過眾包平台,“眾包平台是開放式的,只要註冊並通過在線學習和考核,誰都可以在平台上領取任務。”雖然,劉佳彤和蔣齊標註的數據內容和領取任務的方式不同,但他們都是為那個從未見過的AI在打工。
“圖片標註是根據任務要求,在圖片上找到需要標註的物品、部位進行框選或標註記號點。比如,一張人臉圖片,有的任務只要求將人臉部進行框選,讓AI知道被標註的部分是一張人臉。有的任務卻要求在人臉圖片上標註幾十甚至上百個記號點,以此讓AI瞭解哪裏是人的眉毛,哪裏是眉梢,哪裏是眼睛,哪裏是內眼角,哪裏是外眼角……”劉佳彤説。
雖然劉佳彤從事數據標註的時間還不到一年,但現在她已經是一名成熟的數據標註員,每天都能標註2000到3000張圖片。
“在這一行裏,每天能標註3000張圖片就已經算是高手了。剛入行的人一天也就只能標註一兩百張圖片。”劉佳彤略帶驕傲地説,“每張圖片根據任務要求的不同,獲取的報酬也不同。只是簡單框選人臉這樣的任務,標註一張圖片需要兩三秒鐘。如果是標註幾十個甚至上百個記號點這樣的任務,需要的時間稍微長一些,但報酬也會相應提高,平均每張圖片在0.3元至0.4元之間。”
為了獲取更高的報酬,數據標註員大多以“工會”“團隊”和“羣”的形式存在,在一個組織框架內共同完成一項任務。劉佳彤沒有加入任何團隊或羣,因此,她稱自己是“獨狼”式的數據標註員。
為了完成每天的任務目標,劉佳彤給自己制定了嚴格的作息時間。每天早上8點鐘起牀,9點準時坐到電腦前,登錄平台領取任務開始工作。每天工作9個小時,吃過午飯後沒時間休息。“有時遇到交付時間短的任務,工作時間就要加長,甚至通宵。”劉佳彤説,“如果不嚴格遵守作息時間,就很難完成任務。”
這項工作可以讓劉佳彤平均每個月得到3000元左右的收入。“平台按照數據標註員的標註業績,每15天通過支付寶或微信給數據標註員結一次賬。”
劉佳彤和蔣齊都認為,數據標註是一個沒有任何技術含量的工作。“每天要做的只是打開人家的網頁,用人家的軟件,在上面把人家的數據,按人家的格式給人家處理好,交給人家,作為數據標註員,我接觸不到人工智能的任何東西。”
人工智能訓練師正式成為新職業
語音和圖像標註員……這些躲在AI背後的工人,在國外被稱為“幽靈工人”。在任何一個運行的AI項目中,都看不到他們的名字,他們只是AI項目中保障AI運行的“齒輪”。可如今有人卻發現,一些“幽靈工作”正在成長為新的創業機會。
隨着數字經濟的發展,“幽靈工作”越來越多地出現在人們的視野中。不用到公司打卡,工作時間自由,這樣的工作越來越受歡迎。然而,“幽靈工作”中的很多缺點也暴露出來,比如,從事“幽靈工作”的人收入不高,沒有被認可的專業頭銜,沒有晉升階梯,工作隨時會被取代,生活缺少穩定與安全感。然而,這種狀況正在逐漸被改變。去年2月份,“人工智能訓練師”正式成為新職業並納入國家職業分類目錄,其中數據標註員為主要工種之一。這標誌着被國外稱為“幽靈工作”的數據標註員在中國已經得到了國家層面的認可。
去年7月3日,中國信息通信研究院發佈的《中國數字經濟發展白皮書(2020年)》(以下簡稱《白皮書》)中指出,當前數據標註行業需求極大、入場門檻低,整個市場大大小小共上千家企業和作坊,卻依然無法滿足產業需求。作為新技術需求發展的新業務形態,數據標註崗位對原有就業沒有替代效應,而入職門檻相對較低、需求數量眾多。
從這份《白皮書》中不難看出,數據清洗、數據標註這些新興行業中藴藏着巨大就業和創業機會。“其實,黑龍江並不是數據清洗和數據標註行業的主要集中地。目前這些行業主要集中在山西、河南、河北、內蒙古等地。在當地尤其是一些縣城裏,數據公司、數據工廠星羅棋佈。我認識的絕大部分數據標註員,都在那邊的團隊裏工作。”劉佳彤説,“黑龍江人力資源豐富,人力成本不高,正好符合數據工廠的創業要求。所以我準備在哈市找一個科技企業孵化器,創辦一家數據工廠,將數據標註行業中的多個環節整體引入到哈爾濱。”