近日,由廈門大學、清華大學、海天瑞聲、西北工業大學及崑山杜克大學聯合主辦,中國計算機學會語音對話與聽覺專委會、中文信息學會協辦的第六屆“OLR2021東方語種識別”國際競賽研討會在線上成功召開。網易互娛AI Lab在本次競賽中以絕對領先的優勢奪取了多語種語音識別賽道雙料冠軍,分別是多語種語音識別受限任務的第一名和多語種語音識別開放任務的第一名。
東方語種識別競賽主要專注於東亞(中國、日本、韓國等)以及東南亞(印尼、越南等)地區的語言研究。此次比賽多語種語音識別任務突破了歷屆比賽僅識別語種的任務限制,在不給定測試語音語種標籤的情況下,參賽隊伍模型需要識別出多語種混合測試集的語音內容。今年已經是OLR比賽的第六屆,本屆比賽吸引來自中國、加拿大、印度 等國家的高校和企業參加。
圖1. OLR歷屆冠軍隊伍及2021參賽隊伍信息
本次比賽多語種語音識別賽道的任務是構建包含13種語言(普通話、粵語、日文、印尼語、越南語以及地區方言等)的混合語音識別系統。而其中受限任務賽道每種語言僅提供約10小時帶標籤訓練數據,訓練數據資源的稀缺使得設計相應模型具有較大的挑戰。針對比賽中的難點,網易互娛AI Lab採用基於Hybrid和E2E的結構,針對普通話、粵語、上海話、日語和印尼語,使用Hybrid結構並訓練相應單語種語音識別模型,該方法在低資源數據場景下,可以獲得比E2E模型更好的結果;針對其他語言,由於缺少發音詞典和文本數據,則使用多種語言混合訓練E2E結構。比賽通過語種識別模型將多語種模型和單語種模型進行耦合,進一步提升性能。
比賽使用CER(字符錯誤率)作為評價指標,CER越小表示系統識別率越高。在受限任務賽道上,網易互娛AI Lab取得13.1%的平均CER,字符錯誤率比官方基線系統相對降低66%,比第二名相對降低28%。值得一提的是,網易互娛AI Lab的多語種單模型亦超過第二名的融合系統。在實際工業級語音識別應用中,使用單系統部署可以降低服務成本,也便於快速更新維護。
圖2. 多語種語音識別受限賽道排名情況
在開放任務賽道上,網易互娛AI Lab基於受限賽道系統,融合了中文普通話、日語、印尼語等三個利用外部數據的模型,取得12.6%的CER,字符錯誤率比第二名相對降低30%。
圖3. 多語種語音識別開放賽道排名情況
目前,網易互娛多語種語音識別的應用價值主要在海外業務應用場景。對於海外語音識別,僅根據用户手機語言設置、IP所在地區進行相應語言、語種的判斷,無法做到非常高的準確率。通過使用多語種語音識別系統,在一定程度上可以解決/緩解語種不匹配導致的語音轉文字語種混亂問題。針對東南亞地區,網易互娛AI Lab目前已支持集印尼、馬來、英語三種語言於一體的多語言混合語音識別系統,該系統可以同時支持3種語言的語音識別。
網易互娛AI Lab成立於2017年,隸屬於網易互動娛樂事業羣,在廣州、杭州、上海均有分部,是遊戲行業領先的人工智能實驗室。實驗室致力於計算機視覺、語音和自然語言處理,以及強化學習等技術在遊戲場景下的研究,應用和落地,旨在通過AI技術助力互娛旗下熱門遊戲及產品的技術升級,目前技術已應用於網易互娛旗下多款熱門遊戲,如《夢幻西遊》《哈利波特:魔法覺醒》《陰陽師》《天下3》等等。