1月23日,人工智慧企業科大訊飛在最新一屆DIHARD-3(國際說話人角色分離比賽)中摘得桂冠,證明了科大訊飛AI語音技術在複雜環境下辨別說話人角色的能力全球領先。作為說話人角色分離任務領域最“困難的”挑戰賽,第三屆DIHARD由美國國家標準與技術研究院(NIST)參與聯合主辦,參賽研究機構包括約翰霍普金斯大學、南加州大學、牛津大學等頂尖團隊。
人工智慧語音技術包含多個子領域,包括語音文字轉譯、TTS播報等等,說話人角色分離的加入讓音訊記錄有了多一維度的價值。例如職場中常常出現的多部門多人會議,透過語音文字轉譯結合說話人角色分離技術,實現快速產出標註了不同說話人的文字會議記錄。
科大訊飛將上述多型別的AI語音技術整合落地在訊飛智慧錄音筆系列產品中,內建科大訊飛轉寫引擎——ED新引擎,能夠為使用者帶來更為無縫、高效、準確的多人多語言記錄體驗。
訊飛智慧錄音筆支援自動切換純中文、純英文識別模式,同時智慧識別中英文混讀場景,以及普通話與多地方言的混合場景,綜合轉寫準確率高達98%。基於科大訊飛在語音識別領域的深厚積累,訊飛智慧錄音筆的轉寫功能支援粵語、河南話、四川話、重慶話、等12種方言轉寫,並支援藏語、維吾爾語2種少數民族語,同時支援中、英、日、韓、俄、法、越南、西班牙8種語言轉寫,更支援中英同步互譯。
為讓使用者更高效地利用錄音轉寫內容,科大訊飛大力投入語音識別後處理技術,在轉寫內容的預處理上進行了重點研發。例如針對多人交談的會議場景,訊飛智慧錄音筆支援分離與ASR聯合建模的說話人分離方案,說話人分離的準確率達到95%,讓使用者能夠快速檢索到各個目標說話人資料,提升內容利用效率。
轉寫ED新引擎為訊飛智慧錄音筆帶來了創新的離線轉寫功能,支援使用者在無網環境下正常使用語音實時轉寫功能,準確率仍舊高達95%。離線轉寫不僅能夠保證消費者在無網環境下使用錄音筆功能,更滿足了部分使用者對敏感機密資訊的防洩露需求。
前沿技術的商用往往能夠帶來效率革新,此次科大訊飛聯合中國科大語音及語言資訊處理國家工程實驗室杜俊副教授團隊(USTC-NELSLIP),在DIHARD-3的四個任務排行榜上包攬所有指標第一名,領先的AI語音技術積累將透過智慧錄音筆等產品線為消費者提供更具價值的辦公學習能力。