探訪人工智慧背後的資料標註師:AI也需要“老師”

【環球網科技報道 記者 林迪】“為了讓機器理解人類的思維方式,前期我們就要當人工智慧的老師。”作為從資料標註師成長起來的資料標註培訓師,山西麟諾網路科技公司(以下簡稱為“山西麟諾”)的李宇龍告訴環球網科技記者,“我把自己比作‘幼教’,當我們拿一個紅蘋果給它(人工智慧)並教會它識別,再拿一個綠蘋果給它,因為顏色差異它就不認識;所以我們的職責就是不斷地幫助它去識別不同顏色、大小,甚至是被咬一塊或者壞掉的蘋果,直到我們隨便拿一個蘋果,它都能認識。”

近日,環球網科技記者走訪了百度(山西)人工智慧基礎資料產業基地(以下簡稱“百度山西資料標註基地”),探尋人工智慧背後的“老師”——資料標註師。

“從來沒想過會從事‘AI’工作”

“來這裡之前我就是在煤礦上,抬頭是山,低頭是煤,從來沒有想過自己現在的工作能跟無人駕駛、人工智慧有關係。”曾在山西一家煤礦做了8年監控員的郭梅,現在就是百度山西資料標註基地的一名資料標註師。

“從來沒想到自己會從事與人工智慧相關的工作。”郭梅對記者表示,來到百基地後,經過公司的崗前培訓和團隊的幫助,從一開始每天只能標註兩三百張,提升到現在的日均完成1300多張,目前涉及的領域包括無人駕駛,人臉識別,影象分類,語音識別等。因為是“按件計費”,從事資料標註工作以來,她的收入也在逐漸提升,目前已高於當地平均收入水平。

山西麟諾資深培訓師李宇龍告訴記者,他一天(八小時)的收入平均在300元左右。“這 水平在整個基地標註師日均收入中處於中等水平,據我瞭解,有人日均收入甚至能破千(元)。”

探訪人工智慧背後的資料標註師:AI也需要“老師”

“剛開始接觸的時候看成是一個重複性的(打點)工序,不會去考慮這個是用作什麼的;後來接觸專案多了,慢慢地就會想要去更深入的瞭解,認識到很多標註的內容可以應用到人工智慧的行業,以及人工智慧在各行業效率提升上的作用。現在,我看到無人駕駛的時候,就會想到這裡面也包括了自己的‘標註’工作。”李宇龍舉例稱,“我印象最深以及最拿手的專案,也是我的第一個專案——’無人駕駛’車道線標註,即對路面上的車道線進行採集,當無人車行駛到一段路時它會自行的拍攝連續的圖片,那我們對這個圖片上車輛所行駛的車道旁邊兩側的線進行標註,比如識別這個線是虛線還是實線,匹配它所對應的一個屬性,告訴人工智慧虛線車輛可以進行變道,實線不可以進行變道。”

做了兩年資料標註工作後,現在李宇龍的工作重心是“培訓師”。對於自己的職業規劃,他表示:“我會接觸到很多的專案,根據每個專案所對應的特點判斷與之匹配的能力。對我個人來講,已經從一個數據標註師做到了專案管理崗位。“

他笑著說:“現在,工作的一大動力就是我培訓更多可以做出高質量資料的人員,這有一種成就感。”

AI人才“蓄水池”

7月2日,百度宣佈未來5年將在百度山西資料標註基地培養5萬名AI資料標註師,提供更多的AI就業崗位,支援當地科技產業發展。7月9日,李彥宏撰文《用大資料培育新就業形態》稱,百度計劃3年內孵化專業資料標註企業100餘家,吸納更多人高質量就業。

對此,基地企業代表山西麟諾總經理李應維對環球網科技記者透露,“在百度‘培養5萬名AI資料標註師’的計劃下,我們計劃到2021年年底,在職員工人數想翻一倍。”

資料顯示,百度在2011年自建了資料採標團隊,支援內部人工智慧業務的發展。2018年9月,百度與山西省轉型綜合改革示範區達成合作,共同打造資料標註基地。

百度山西資料標註基地負責人尉赤介紹稱,經過1年多的發展,山西標註基地已經成為中國人員和產值規模第一的單體資料標註基地。AI資料標註師從業人員超過2000人,實現營業收入超億元,企業入駐35家。百度智慧雲資料眾包擁有遍佈全國和全球22個國家渠道代理資源池,超5萬名採標人員,2000萬眾包網際網路使用者,全面涵蓋了包括智慧駕駛、手機行業、網際網路和AI開發者四大領域的全部頭部客戶,是國內最大的AI資料服務提供者。

“七八年前,我們是透過線上眾包的方式,讓AI資料標註師來做一些比較簡單的任務,但隨著人工智慧的發展,應用場景越來越多,任務難度越來越高;加上對資料安全、隱私、質量和效率的要求,百度決定建立一個人工智慧基礎資料產業基地。”百度山西資料標註基地負責人尉赤對記者表示,基地一方面為百度自身的人工智慧發展提供服務,另一方面可以向合作伙伴輸出基地的資料服務和整套解決方案。

那麼,回到資料標註師的未來,有哪些職業規劃和晉升通道?基地企業代表山西麟諾負責人李應維用自家員工的兩個案例來說明:“有一個員工入職後,因為表現優異,不久被百度公司聘用。我們還有一個20歲左右的孩子(員工),學歷(某職業技術學校畢業)雖不高,但卻是個人才,他現在是內容稽核的負責人之一,所以,一方面這個職業的未來是可期待的;另一方面,也可以說,資料標註師也在為人工智慧培養和發現人才。”

李宇龍則將這項工作形容為“打怪升級”:“雖然看上去枯燥,,其實每天都在接觸新事物。人工智慧涉及的領域包括教育、安防、金融、交通醫療和電商等,陌生的領域每天都在挑戰大家的學習能力;同時,我們也比其他行業的人更早地接觸到未來的發展方向(人工智慧)和未來的生活工作場景,這樣看到了未來的發展需求也就比別人更早找到更多發展機會。”

而對於為何要在未來5年培養5萬名AI資料標註師,尉赤告訴記者,“我們可以看到,人工智慧是個高速發展的行業,資料服務又與人工智慧息息相關。所以,5年培養5萬人並不算多,我們的線上眾包註冊使用者有將近2000萬人,目前每個月在線上為我們提供服務的人將近5萬人。如果按照行業增長速度來看的話,培養5萬人還不一定夠。”

打好AI大樓的“地基”

毋庸置疑,AI資料標註師是隨著人工智慧的發展出現的一個新興就業崗位。據報道,2020年2月,“人工智慧訓練師”正式成為新職業並納入國家職業分類目錄。資料採集和標註是人工智慧訓練師的主要任務之一。資料標註師的工作是教會AI認識資料,有了足夠多、足夠好的資料,AI才能學會像人一樣去感知、思考和決策,更好地為人類服務。

走進該基地的一間辦公室,記者可以看到每個電腦前都坐著一名AI資料標註師,他們將根據各自分配的任務對文字、圖片、語音和影片進行標註。工作人員演示“戴口罩的人臉影象標註”時指出,採集大量的戴口罩的人臉照片後,資料標註師對人臉的眉毛、眼鏡、顴骨等人臉關鍵點進行精準的標註,標註的特徵點越多,AI就越能精確地識別戴口罩場景下的人臉,讓人們在不摘口罩的情況下也能實現精確的體溫測量,或是透過人臉閘機。

探訪人工智慧背後的資料標註師:AI也需要“老師”

要做AI的“老師”,首先要把知識轉化成它能消化和吸收的‘語言’,也就是將資料想象成AI的燃料,人類對採集回來的原始資料進行加工,標註的過程就可以提取出一些資料資訊。尉赤進一步舉例解釋稱,“比如,在採集大量的人臉資料後,AI資料標註師會對人像進行標註,提取特徵,將特徵‘喂’給人工智慧模型,那麼模型演算法相當於總結了之前人工標註出的資訊,並找出通用規律,那這個人工智慧模型就具備了人腦才有的認知和判斷能力。”

“如果做一個比喻的話,我覺得資料標註師就是最基礎的角色,就像蓋大樓,沒有基礎,這個樓蓋不起來,而且也不穩。那麼,我們把這一塊做好了,人工智慧的發展才會又快又穩。”李應維最後對環球網科技記者表示:”我們做的這個事情看起來簡單枯燥,但是它的意義非常大,就像一臺車沒有汽油走不了,資料就是人工智慧發展的汽油,是燃料。有了我們的資料,機器(演算法)不斷的迭代,就能推動人工智慧往更好的方向發展。“

【來源:環球網】

宣告:轉載此文是出於傳遞更多資訊之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯絡,我們將及時更正、刪除,謝謝。 郵箱地址:[email protected]

版權宣告:本文源自 網路, 於,由 楠木軒 整理釋出,共 3155 字。

轉載請註明: 探訪人工智慧背後的資料標註師:AI也需要“老師” - 楠木軒