網易包攬ICDAR SIW語種識別3項冠軍，獲國際權威認可

2021-05-24 由喜東付發佈於經典

網易又一次拿下國際比賽冠軍。近日，網易數帆在國際比賽ICDAR 2021中，以明顯領先第二名的成績包攬3個任務項目的冠軍，在多語種OCR領域（文字識別領域）獲得國際權威認可。

ICDAR由國際模式識別協會組織，是文檔分析與識別領域公認的頂尖國際學術會議，被譽為OCR界的奧斯卡。而SIW語種識別比賽旨在促進少數語種的發展與傳承，是ICDAR今年舉辦的10項競賽之一，也是業界首次大規模的語種識別競賽。

據瞭解，本次SIW語種識別比賽吸引了韓國最大互聯網公司NAVER、華南理工DLVC Lab等世界一流的科技公司、高校參加。

比賽分為手寫體識別、印刷體識別、手寫印刷混合識別三個賽道，參賽團隊需要識別5000張樣本圖片上的文字屬於哪一個小語種。最終，網易提交的識別結果中，手寫體識別準確率99.69%，領先第二名0.55%；印刷體識別準確率99.99%，領先第二名0.19%；在最難的手寫體印刷體混合識別賽道上，網易準確率99.84%，領先第二名1.07%。

（ICDAR 2021 SIW 比賽3個任務結果，網易均列第一）

網易數帆AI技術團隊表示，這三個賽道任務主要有兩個難點。首先，不同語種的相似度非常高，如泰米爾語和馬拉雅拉姆語等，對於識別模型的細粒度分類性能要求非常高。樣本文字都是以句子形式出現，存在連筆。再加上手寫體筆跡潦草，即使是同樣內容，不同的筆跡又增加識別難度。

（相似度非常高的泰米爾語和馬拉雅拉姆語也需要精準識別）

網易研發了一種語種細粒度識別模型，創新性地僅用了單一模型解決了三個任務。相比於傳統的文字分類問題，將語種分類問題轉換為了語義分割問題，給每個像素點都賦予一個監督信息，讓模型注意到樣本的每個局部細粒度特徵。同時，優化了目前業界最流行的Transformer結構來增強細節特徵的表徵能力，進一步提升了對手寫體的識別精度。此外，大規模預訓練技術以及半監督技術也極大地提升了模型泛化能力和識別準確性。

據瞭解，這已不是網易第一次獲國際權威技術比賽認可，在此之前，網易伏羲已經拿下了多個全球頂級比賽的獎項，比如問鼎全球AI文創大賽（GAAC），獲得ASE 2019最佳論文獎等等。

同時，網易也不斷突破技術邊界，將技術研發與業務價值結合。當業務面臨新痛點、新問題、新場景時，網易不斷升級迭代AI能力，促進業務應用創新。

目前，網易數帆通過AI技術研發與專項解決方案，將OCR技術在泛娛樂、音樂直播、電商等場景中成功落地，又例如網易雲音樂的MV歌詞字幕識別、網易遊戲的身份驗證、網易嚴選的商詳頁解析、網易易測的ICON自動化檢測定位等，都有OCR技術的身影。

網易伏羲的沉浸式活動系統，虛擬人技術等也已經運用在動畫、教育、文旅、會議等越來越多的場景中。網易更多的技術創新成果正逐步落地。

轉載請註明：網易包攬ICDAR SIW語種識別3項冠軍，獲國際權威認可 - 楠木軒