1月23日,人工智能企業科大訊飛在最新一屆DIHARD-3(國際説話人角色分離比賽)中摘得桂冠,證明了科大訊飛AI語音技術在複雜環境下辨別説話人角色的能力全球領先。作為説話人角色分離任務領域最“困難的”挑戰賽,第三屆DIHARD由美國國家標準與技術研究院(NIST)參與聯合主辦,參賽研究機構包括約翰霍普金斯大學、南加州大學、牛津大學等頂尖團隊。
人工智能語音技術包含多個子領域,包括語音文字轉譯、TTS播報等等,説話人角色分離的加入讓音頻記錄有了多一維度的價值。例如職場中常常出現的多部門多人會議,通過語音文字轉譯結合説話人角色分離技術,實現快速產出標註了不同説話人的文字會議記錄。
科大訊飛將上述多類型的AI語音技術集成落地在訊飛智能錄音筆系列產品中,內置科大訊飛轉寫引擎——ED新引擎,能夠為用户帶來更為無縫、高效、準確的多人多語言記錄體驗。
訊飛智能錄音筆支持自動切換純中文、純英文識別模式,同時智能識別中英文混讀場景,以及普通話與多地方言的混合場景,綜合轉寫準確率高達98%。基於科大訊飛在語音識別領域的深厚積累,訊飛智能錄音筆的轉寫功能支持粵語、河南話、四川話、重慶話、等12種方言轉寫,並支持藏語、維吾爾語2種少數民族語,同時支持中、英、日、韓、俄、法、越南、西班牙8種語言轉寫,更支持中英同步互譯。
為讓用户更高效地利用錄音轉寫內容,科大訊飛大力投入語音識別後處理技術,在轉寫內容的預處理上進行了重點研發。例如針對多人交談的會議場景,訊飛智能錄音筆支持分離與ASR聯合建模的説話人分離方案,説話人分離的準確率達到95%,讓用户能夠快速檢索到各個目標説話人數據,提升內容利用效率。
轉寫ED新引擎為訊飛智能錄音筆帶來了創新的離線轉寫功能,支持用户在無網環境下正常使用語音實時轉寫功能,準確率仍舊高達95%。離線轉寫不僅能夠保證消費者在無網環境下使用錄音筆功能,更滿足了部分用户對敏感機密信息的防泄露需求。
前沿技術的商用往往能夠帶來效率革新,此次科大訊飛聯合中國科大語音及語言信息處理國家工程實驗室杜俊副教授團隊(USTC-NELSLIP),在DIHARD-3的四個任務排行榜上包攬所有指標第一名,領先的AI語音技術積累將通過智能錄音筆等產品線為消費者提供更具價值的辦公學習能力。