影象標註員在螢幕上標出汽車位置。
當人們向智慧裝置發出一條語音指令、拍張照片供裝置識別時,一般不會想到,這背後有大量人枯燥而繁瑣的工作。做這類工作的人被稱為“資料標註員”。
疫情防控期間,哈爾濱有這樣一群人,他們選擇了不用到單位打卡,工作時間自由的工作。他們透過平臺或群領受任務,然後將任務完成並領取報酬,工作程式和工作效果都是“看不見”的,就像是存在於AI和數字經濟背後的“幽靈工作”。可是,當前資料標註行業對人力需求極大,這一新興行業正蘊藏著巨大的就業和創業機會。
語音標註員:將“牛德華”變成“劉德華”
語音標註員每天要聽海量的錄音。
蔣齊是一名語音標註員,這是一個隨著智慧語音互動裝置的普及而新出現的職業。他的主要工作就是將智慧語音互動裝置無法識別的字、詞、句子進行標註,然後“翻譯”過來,再發送回去以便智慧裝置進行學習。
這個看起來高大上的工作,蔣齊說其實很簡單,“比如一個有口音的人對智慧音箱或互動裝置說‘播放一首牛德華的歌’,智慧裝置需要分析出使用者真正的意思是想要聽一首劉德華的歌。”蔣齊的工作就是將裝置收集到的語音“牛德華”標註成劉德華,再發回給智慧裝置研發單位,供智慧裝置進行學習,使智慧裝置下次聽到“牛德華”時,能準確地轉化為“劉德華”。
蔣齊每天在群裡領取包含各種詞、句的資料包,然後進行標註。他每次在群裡領取一個包含150條語音的資料包,完成對資料包內語音的標註後再領取下一個資料包。
為了能夠完成更多的任務,蔣齊平時很少參加娛樂活動。“我最後一次和別人在外面吃飯還是去年秋天幾個同鄉約我在樓下的火鍋店吃火鍋。我平時的時間基本上都用來領資料包做任務。”
蔣齊表示,語音資料標註是一項完全沒有技術含量的累活,每標註1個小時的有效時長語音,能得到100元的報酬,一個月可以賺到3000元到3500元。
在BOSS直聘網站上,記者以“資料標註員”為關鍵詞,搜尋到近200條相關職位的招聘資訊。這些職位大多為兼職崗位,不用到公司上班。一些崗位也不要求應聘者的學歷,只要求應聘者能夠熟練使用office等辦公軟體。報酬按有效標註時長給付,多為每小時100元至110元。
記者發現,招聘企業對應聘者只要求能夠“對標註結果進行質量評估,並反饋標註結果”“智慧語音、圖片等相關資料的語義理解及標註”“對已標註資料的清洗、保證標註資料的正確率”。
記者線上向一家招聘企業詢問,“什麼是資料清洗?”得到的答覆是:使用軟體對資料進行操作,不是很難。
蔣齊告訴記者,這些招聘單位大多是分包商或資料工廠,他們從AI研發單位拿到資料標註部分的業務,然後,再將這些業務拆解成若干資料包,交給應聘者來完成。除此之外,有些個人可以直接從裝置商那裡得到這部分業務,然後自己組建團隊,建立微信群,由群內的成員來完成。“我現在就是透過微信群領取任務。”
影象標註員:教人工智慧認識新世界
工作中的劉佳彤。
今年31歲的劉佳彤,也是一名資料標註員,但她標註的內容不是語音而是圖片,偶爾也會標註一些影片影像。她與蔣齊不同的是,她不是透過群來領取任務,而是透過眾包平臺,“眾包平臺是開放式的,只要註冊並透過線上學習和考核,誰都可以在平臺上領取任務。”雖然,劉佳彤和蔣齊標註的資料內容和領取任務的方式不同,但他們都是為那個從未見過的AI在打工。
“圖片標註是根據任務要求,在圖片上找到需要標註的物品、部位進行框選或標註記號點。比如,一張人臉圖片,有的任務只要求將人臉部進行框選,讓AI知道被標註的部分是一張人臉。有的任務卻要求在人臉圖片上標註幾十甚至上百個記號點,以此讓AI瞭解哪裡是人的眉毛,哪裡是眉梢,哪裡是眼睛,哪裡是內眼角,哪裡是外眼角……”劉佳彤說。
雖然劉佳彤從事資料標註的時間還不到一年,但現在她已經是一名成熟的資料標註員,每天都能標註2000到3000張圖片。
“在這一行裡,每天能標註3000張圖片就已經算是高手了。剛入行的人一天也就只能標註一兩百張圖片。”劉佳彤略帶驕傲地說,“每張圖片根據任務要求的不同,獲取的報酬也不同。只是簡單框選人臉這樣的任務,標註一張圖片需要兩三秒鐘。如果是標註幾十個甚至上百個記號點這樣的任務,需要的時間稍微長一些,但報酬也會相應提高,平均每張圖片在0.3元至0.4元之間。”
為了獲取更高的報酬,資料標註員大多以“工會”“團隊”和“群”的形式存在,在一個組織框架內共同完成一項任務。劉佳彤沒有加入任何團隊或群,因此,她稱自己是“獨狼”式的資料標註員。
為了完成每天的任務目標,劉佳彤給自己制定了嚴格的作息時間。每天早上8點鐘起床,9點準時坐到電腦前,登入平臺領取任務開始工作。每天工作9個小時,吃過午飯後沒時間休息。“有時遇到交付時間短的任務,工作時間就要加長,甚至通宵。”劉佳彤說,“如果不嚴格遵守作息時間,就很難完成任務。”
這項工作可以讓劉佳彤平均每個月得到3000元左右的收入。“平臺按照資料標註員的標註業績,每15天透過支付寶或微信給資料標註員結一次賬。”
劉佳彤和蔣齊都認為,資料標註是一個沒有任何技術含量的工作。“每天要做的只是開啟人家的網頁,用人家的軟體,在上面把人家的資料,按人家的格式給人家處理好,交給人家,作為資料標註員,我接觸不到人工智慧的任何東西。”
人工智慧訓練師正式成為新職業
語音和影象標註員……這些躲在AI背後的工人,在國外被稱為“幽靈工人”。在任何一個執行的AI專案中,都看不到他們的名字,他們只是AI專案中保障AI執行的“齒輪”。可如今有人卻發現,一些“幽靈工作”正在成長為新的創業機會。
隨著數字經濟的發展,“幽靈工作”越來越多地出現在人們的視野中。不用到公司打卡,工作時間自由,這樣的工作越來越受歡迎。然而,“幽靈工作”中的很多缺點也暴露出來,比如,從事“幽靈工作”的人收入不高,沒有被認可的專業頭銜,沒有晉升階梯,工作隨時會被取代,生活缺少穩定與安全感。然而,這種狀況正在逐漸被改變。去年2月份,“人工智慧訓練師”正式成為新職業並納入國家職業分類目錄,其中資料標註員為主要工種之一。這標誌著被國外稱為“幽靈工作”的資料標註員在中國已經得到了國家層面的認可。
去年7月3日,中國資訊通訊研究院釋出的《中國數字經濟發展白皮書(2020年)》(以下簡稱《白皮書》)中指出,當前資料標註行業需求極大、入場門檻低,整個市場大大小小共上千家企業和作坊,卻依然無法滿足產業需求。作為新技術需求發展的新業務形態,資料標註崗位對原有就業沒有替代效應,而入職門檻相對較低、需求數量眾多。
從這份《白皮書》中不難看出,資料清洗、資料標註這些新興行業中蘊藏著巨大就業和創業機會。“其實,黑龍江並不是資料清洗和資料標註行業的主要集中地。目前這些行業主要集中在山西、河南、河北、內蒙古等地。在當地尤其是一些縣城裡,資料公司、資料工廠星羅棋佈。我認識的絕大部分資料標註員,都在那邊的團隊裡工作。”劉佳彤說,“黑龍江人力資源豐富,人力成本不高,正好符合資料工廠的創業要求。所以我準備在哈市找一個科技企業孵化器,創辦一家資料工廠,將資料標註行業中的多個環節整體引入到哈爾濱。”