新華社太原8月21日電題:“90後”數據標註師,一天在屏幕上標200萬個點
新華社記者馬曉媛、梁曉飛
“都説數據是人工智能(AI)時代的石油,我們的工作就是把原油煉成汽油。”
“我們就像一個‘幼教’,教AI更好地認識數據。”
……
聊起數據標註師這份職業,“90後”李宇龍顯得格外興奮。雖然從業僅4年,但他已經是一名資深的數據標註師。
數據標註師是隨着人工智能的發展而出現的新職業。人工智能練習認知需要大量經過標註的數據,數據標註工作最早由AI工程師完成,隨着人工智能所需數據量的不斷增加,數據標註逐漸獨立成為新的工種。
“數據標註有時候就像玩遊戲。”李宇龍最近正做一個自動駕駛的數據標註項目,工作內容是對照一張2D街景照片,在相應的3D點雲圖上框選打點。
“你看,把汽車框起來,都打成白色的點,就代表這是一個障礙物。”隨着鼠標快速滑動,屏幕上的點雲圖不斷翻轉,一個個針尖大的數據點被標註在圖中不同物體上——藍色是路面、綠色是綠植、紅色是路沿、白色是障礙物。
李宇龍説,像這樣一張普通的點雲圖,大約要標註18萬個點,一個熟練的數據標註師只用半個多小時就能完成,“這樣算下來,一天標200萬個點不成問題”。
李宇龍原本在一家印製電路板的外資企業工作,偶然機會下接觸了數據標註行業,便投身其中。他説,與傳統產業相比,這份職業有種“科幻感”:傳統行業的原料、產品都看得見、摸得着,而數據標註師只需要一台電腦、一根網線,原料是數據,產品也是數據。
然而,這份“科幻”的職業卻實實在在地改變着現實生活。自動駕駛、人臉支付、智慧醫療、智能家居……人工智能正在給生活帶來越來越多的便利,這背後都有着數據標註師的功勞。
“雖然我們從事的是人工智能領域最基礎的工作,卻經常能體會到價值感。”李宇龍説,新冠肺炎疫情期間他和同事做了一個醫療項目,是在肺部CT片上標註病灶數據,以提高人工智能對病毒的識別能力。“平常醫生看一張CT片需要幾分鐘,如果用改進後的人工智能算法作為輔助,幾秒鐘就能初步判斷一張CT上是否存在疑似病毒。”
從事數據標註需要每天對着電腦,不免讓人覺得枯燥。但李宇龍卻説,數據標註為他打開了更大的世界,因為經常接觸不同的項目,每個項目涉及的領域也不同,會經常帶來新鮮感。
“更重要的是,這會是一個持續發展的行業。”李宇龍説,隨着人工智能進入越來越多的行業領域,對數據標註的需求會更多、要求也會更高,數據標註行業的前景無限。
如今,僅李宇龍所在的百度(山西)人工智能基礎數據產業基地,就有35家數據標註企業、2300多名數據標註師。百度智能雲數據眾包則擁有超過5萬名線下采集員,超過2000萬名眾包互聯網用户。
“每當有人問起我的職業,我回答數據標註師的時候,對方的臉上總是寫滿了問號。”李宇龍説,期待有越來越多人瞭解這個行業,“希望有一天,大家提起數據標註師,就像提起教師、醫生一樣。”(完)(此稿在新華社法人微博“新華視點”配有新媒體報道)