智東西(公眾號:zhidxcom)
文 | 韋世瑋
近日,一年一度的國際頂級語音大會InterSpeech 2020落下帷幕,搜狗聯合西北工業大學謝磊老師團隊,音頻、語音與語言處理研究組(ASLP@NPU)在微軟舉辦的Deep Noise Suppression Challenge(DNS挑戰)中,獲得了實時賽道第一、非實時賽道第二的成績。
目前,搜狗與西工大ASLP在比賽中使用的神經網絡模型論文《DCCRN: 用於相位感知語音增強的深度複數卷積循環網絡(Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement)》已被InterSpeech 2020接收。
這場極具影響力的賽事亦吸引了亞馬遜、索尼、Facebook、字節跳動、中國科學院聲學所、卡耐基梅隆大學和首爾大學等全球知名企業及院校參賽。
那麼,搜狗究竟是如何一路過關斬將,從競爭激烈的挑戰中脱穎而出?智東西特別與搜狗相關負責人聊了聊,在回顧這場精彩競賽的同時,也進一步瞭解這項技術背後所帶來的行業意義與價值。
一、雙賽道複雜語音難度高,實時賽道超亞馬遜奪冠DNS挑戰是一項單通道語音增強比賽,參賽者需要使用自己訓練的AI模型對微軟提供的盲測試集進行降噪處理,並由微軟根據語音增強效果做出評測。據悉,微軟為各位參賽者提供的數據集約長達500個小時。
此外,DNS挑戰共分實時與非實時兩條賽道。
實時賽道中,經過模型處理的Tms/幀的語音,在2.4Ghz的Core i5四核處理器上的處理時長不能超過T/2ms,同時使用的未來幀信息不能超過40ms。
非實時賽道中,儘管該賽道對語音的處理時長沒有明確的限制,但參賽者使用的未來幀也不能超過40ms。
與此同時,官方提供的測試語音類型包含混響,以及在各種真實環境下錄製的語音,大大提升了DNS挑戰的難度係數。
儘管如此,搜狗與西工大ASLP在複賽中還是以超過亞馬遜0.03 MOS分的成績,取得了實時賽道第一名。而在非實時賽道中與德國布倫瑞克工業大學(TU Braunschweig)並列第二,僅次於亞馬遜。
DNS挑戰複賽結果
二、基於複數卷積模型,降噪精度提高據瞭解,DCCRN降噪網絡將近年效果較好的卷積循環神經網絡拓展成複數卷積形式,並採用複數卷積與複數LSTM,加上跳連有效地提升降噪能力。
DCCRN模型結構圖
其中,複數卷積由原先的卷積核處理實部與虛部轉變而成,兩個卷積核分別處理實部與虛部,再通過複數乘法規則將其相連,有效地提升實部和虛部的估計精確度。
複數卷積
不難看出,與常規的AI降噪模型相比,DCCRN降噪網絡最主要的創新在於採用了複數卷積模型。
“相比於常規的實數神經網絡,複數卷積使用了複數乘,利用複數間的相關規則,以及實部和虛部之間的特性,有效地提升實部和虛部建模效果。”搜狗相關研發人員談到。
但他也提到,對通話等具有低延遲要求的場景而言,DCCRN降噪網絡的延遲性能還需進一步優化。
與此同時,除了進一步提升低延遲網絡的降噪性能外,搜狗和西工大ASLP的研究人員還需針對低功耗設備,對內存和計算資源佔用進行優化。
三、率先落地搜狗AI錄音筆,語音主觀聽覺得分提升30%實際上,目前國內外的AI降噪技術主要落地在語音通話等簡單場景中,在錄音筆等複雜場景中的落地仍較少。
基於自身長期構建的搜狗錄音筆業務,現階段搜狗與西工大ASLP的這項AI降噪技術已應用於搜狗智能錄音筆系列等終端設備,並同時提供實時降噪與非實時降噪的雲端服務。
搜狗研究人員談到,與降噪前相比,使用DCCRN網絡降噪後的語音主觀聽覺得分,提升了近30%,不僅讓錄音筆在各類複雜的噪聲場景中實現更清晰有效的拾音,亦大大提升了用户的聽感體驗。
例如,基於clairVoice8麥克風陣列算法和pure Voice AI降噪算法,搜狗AI錄音筆S1不僅能對汽笛聲、風聲、鍵盤聲等4萬種噪聲進行深度智能降噪,同時還可根據用户周圍的環境智能識別噪音,進行過濾消除,從而實現對人聲的增強。
有趣的是,在今年4月羅永浩的直播首秀中,他利用吹風機和揉糖紙的噪音對工作人員的錄音環境進行了肆無忌憚的“騷擾“,但在搜狗S1錄音筆開啓AI降噪功能後,工作人員的聲音亦變得十分清晰。
據瞭解,除了搜狗AI錄音筆之外,未來搜狗還計劃進一步將這項AI降噪技術應用到搜狗輸入法等語音產品中,並逐步由內而外地賦能行業更多的語音產品。
結語:為語音行業發展提供更廣闊想象空間在語音交互技術越來越日常化的今天,如何能在嘈雜環境中捕捉到人們想要獲取的關鍵信息,亦是AI語音技術不斷為之努力的方向,而搜狗AI降噪技術率先落地於AI錄音筆,不僅是對更復雜語音場景中的一次挑戰,亦為這項技術拓寬了落地路徑。
回顧這場全球頂級的語音大會,搜狗與西工大ASLP拿下的好成績,不僅讓我們看到了中國企業和院校在國際舞台上強勁的技術實力,同時也讓我們對AI降噪技術在未來更廣闊的行業應用充滿想象。
附:
比賽結果:https://dns-challenge.azurewebsites.net/phase1results
論文地址:https://arxiv.org/abs/2008.00264
Demo地址: https://github.com/huyanxin/DeepComplexCRN