騰訊視頻通信雲專場落幕騰訊商世東：天籟音頻技術是為了雲視頻會議而生

　　【IT168 資訊】9月11日，2020騰訊全球數字生態大會視頻通信雲專場雲端召開。會上，騰訊多媒體實驗室高級總監商世東發表了以《騰訊天籟音頻，面向雲會議的新一代實時音頻技術》為主題的演講。他指出，天籟音頻技術是實時端到端音頻通信的完整解決方案，致力於讓用户在雲視頻會議時可以“聽得見、聽得清、聽得真”。

　　騰訊多媒體實驗室的高級總監商世東

　　商世東認為與傳統會議場景相比，實時音視頻的雲視頻會議面臨着非常大的挑戰。主要包括以下幾個方面：音頻外設的多樣化（客户端，高清音質）、網絡條件差異（Ethernet，4G，W i f i）、聲學環境複雜（遠距離/混響/本底噪聲）、入會形式複雜（同地多設備）、噪聲類型多變（平穩，非平穩噪聲）、客户端的音頻設備差異性（藍牙，有線，內置）、與傳統會議設備的兼容、用户需求的多樣化（音頻內容分享）及現網質量評估的複雜性。而天籟音頻技術是實時端到端音頻通信的完整解決方案。

　　在演講最後，商世東表示，天籟音頻技術規劃的關鍵策略包括音頻通信核心體驗、聲音場景分類和處理、音頻痛點難點問題及差異化體驗。最終目標是提升語音可懂度、自然度、舒適度。

　　以下為商世東演講實錄：

　　大家好，歡迎來到騰訊全球數字生態大會視頻通訊雲專場。我是騰訊多媒體實驗室高級總監商世東。今天要跟大家分享的是《騰訊天籟音頻——面向雲視頻會議的新一代實時音頻技術》。

　　大家都知道經過幾十年技術的發展，其實對於端到端的實時音頻通訊技術，已經形成了一套非常成熟、非常穩定的框架。這套框架結構已經在我們傳統的，比如説經過PSDN的電網網絡、運營商網絡裏面得到了廣泛應用。

　　大家日常當中使用的固定電話、手機通信其實採用的就是這樣的架構。我們講基於IP網絡的應用上面也有這樣類似的一套框架，當然它基於運營商的實時語音通訊技術最大的不同在於網絡，但是從整個端到端的語音通訊框架來説，他們有很多地方都是類似的，比如説在上行的時候他們都有信號採集、語音前處理，然後經過編碼，在經過網絡傳輸的時候，需要一系列的網絡的相關的這樣的一些處理，比方説FEC 、比方説丟包補償 PLC的技術，以及自動速率控制來控制不同帶寬下的音頻語音包速率。語音包經過網絡來從一端發送到對端，然後在播放端或者説我們叫下行端的時候，我們會有一個解碼，然後再加上後處理，最後經過渲染，經過實際的喇叭把這個聲音放出來。這一整套框架結構其實經過幾十年的發展，已經在很多地方得到廣泛使用。

　　那我們自然而然就會講，這樣的一套實時通信的框架系統，在傳統會議場景上面我們看到，已經有很多類似的產品出現，比方我們在會議室當中用的比較多的，我們都看到了這種八爪魚，就是思科或者寶利通這樣的設備。當我們講基於雲通信的、特別是基於雲的視頻通信的技術，跟我們講的傳統會議場景裏面的端到端的語音通訊技術有什麼不同呢？其實還有蠻大不一樣的，大家可以看這個PPT。

　　在傳統的會議場景，基本上我們講是一個受控的，可預見的場景。在這樣的場景裏面你用的外設是確定的，你用的是哪個供應商、硬件設備製造商的產品，這都是事先知道的。你的會議室的場景基本上事先是經過精心設計的，比方説不會有太強的噪聲，不會有太大的混響。你的網絡基本上很多時候都是得到專線保證的，尤其是在公司的內網裏面。我們講網絡的QOS 、丟包、延時和抖動其實都不會太過惡劣。但是當我們來到基於雲的視頻會議通訊場景的時候，情況就會有很大的不同，我們會發現其實這樣端到端的實時音頻技術面臨着非常大的挑戰。會面臨哪些挑戰呢？

　　第一，我們會面臨這個入會客户端設備的多樣化。因為整個入會客户端設備在這樣的雲視頻通信場景下面會存在着很多種不同的，來自於不同廠商的、來自於不同質量，來自於不同種類的這樣一批客户端設備，客户端可以是PC、 MAC機器、iPhone、安卓這樣的設備，也有各種專業視頻機、還有來自於傳統電話的，這些設備的音頻能力，也就是我們講的音頻的採集和播放能力參差不齊，存在着很大的差異性。

　　然後關於音頻外設本身我們也存在着很多的選擇，會用耳機、會機器內置的麥克風或者揚聲器。耳機也會存在着這種藍牙耳機和這種有線耳機的區別，可能還會有用藍牙音箱來入會，這樣種種的音頻外設之間同樣存在着巨大的差異性。

　　同時網絡條件也存在着很大的不一樣，有的是這種公司內網，有的是這種4G移動網絡，有的會是家裏的WiFi，這種網絡條件與傳統會議場景裏面的網絡存在着很大的不同。

　　然後更為複雜的還是聲學環境，相對以前也變得更加更加複雜得多。我們將會存在着各種的近講，比方説拿着耳機的近講，或者遠距離的在會議室裏講話，聲音場景可能會有很多噪聲，有平穩的噪聲、還有突發的噪聲。

　　然後這種入會的形式也會相比較以前豐富了很多。以前在會議室裏面基本上就是打開視頻會議，然後就開始通話了，但現在語音視頻會議我們發現可能會存在這種典型的同地多設備入會的形式情況。在一個會議室裏，大家都拿着電腦和大屏或者視頻機開始紛紛入會，就是在同一個地方，存在的有多種設備進入同一個會議的情況，通常這樣的情況肯定會導致嘯叫或者漏回聲。

　　客户的使用習慣相對以前也發生很大的變化，以前通過這種視頻機入會的時候，基本上就是屏幕分享，然後視頻這個打開。但現在我們發現用户需求有可能會存在一種共享音頻的需求，比方説他可能會拿他的客户端設備來做一些視頻和音頻內容的分享，把這個PPT裏面的音頻內容或者是一首歌、甚至一個視頻通過雲視頻會議的場景分享到對端，這種新的場景是在傳統的這種會議場景裏面你是不會碰到的，音頻內容分享或者音樂內容都會很少碰到。

　　另外，還有一個因為是雲視頻會議這裏面存在着這麼多的不可控的可變的因素，所以我們對於端到端的質量的評估、實時質量評估，這也是一個需求。如果沒有這樣的一個實時質量評估的系統，我們無法知道在這樣一個存在的複雜多變的網絡環境下，到底端到端實時雲通訊的質量如何。

　　在這種雲視頻會議場景下，聲音場景會有很大的不同。還是講像剛才以前我們會在這種可控的傳統會議室裏面開會，現在我們可能會在會議室裏面，也可能是在開放的這種辦公區域裏面，也可能是在家裏面，如果是在家裏面，可能這種場景更多的是。我們是來自於廚房的或者電視的噪聲，這樣的場景在以前的視頻會議場裏面是我們碰都不會碰到的，或者甚至於是在移動的場景，特別是在車載的場景裏面來入會。在車載的場景裏面，汽車的這些噪聲以及在車載環境裏面重混響會對整個入會的音質提出非常大的挑戰。在不同的場景下，用户對於音質的期望也會有所不同。

　　我們講騰訊天籟音頻技術系統裏面，為了解決我們上面所説的面對雲視頻會議場景下的各種挑戰，我們開發了一整套的技術和一套完整的框架，我們圍繞着”聽得見聽得清聽得真“這樣子的目標。具體從技術角度來講，就是語音的可懂度、語音的自然度和語音的舒適度，圍繞這樣的目標，我們打造了音頻實時通信的完整的解決方案。用户的核心體驗，我剛才講過，主要指高音質、低碼率、低延遲這樣的核心體驗，圍繞着聲音場景，在不同的聲音場景下面，我們有定製化的這樣的高音質、高清音頻的解決方案，以及圍繞着我們在這種雲視頻會議場景下的用户痛點和難點問題進行在重點攻關。

　　比如説我們講，用語音分離技術來解決我後面會提到的這種雞尾酒會的問題。然後還有進一步的，是我們在天籟音頻系統裏面提供的一些差異化體驗。我們提供的這種差異化的體驗，比如説我們後面會講到的這種特定主講人增強或者是特定目標人語音增強，就是它只增強你希望增強的特定人的聲音。然後我們還會有這種音視頻多模態的音頻跟視頻技術，應用他的臉部信息，特別是唇部信息來做語音增強工作。

　　下面一頁是我們端到端整個實時語音通訊技術的一個全景圖。基本的框架我們是從音頻工程開始，經過了音頻分析、分類、視頻和處理之後，然後送到我們的音頻引擎和網絡抗性增強裏面來做進一步的編解碼。因為只有經過這樣子的音頻引擎和網絡抗性的處理之後，我們講音頻語音包才適合在這種基於IP的網絡上面進行傳輸，然後在下行端或者我們講播放端，我們收到了語音包，經過各種音頻下行語音後處理之後，經過它適配過的這種音頻硬件外設上面，給他以這種失真儘可能小，用户儘可能感到舒適的這種方式給他播放出來。

　　下面我講一下幾個我們在天籟音頻技術裏面比較有亮點的技術。

　　第一個是超寬帶語音技術。超寬帶語音技術主要是在這種雲視頻會議裏面因為存在着一些外設，他們有很強的採集和播放能力。它可以提供一個非常寬的音頻帶寬，在這樣的音頻帶寬下使用超寬帶語音技術可以提供一個更優秀的音質，所以我們把整個語音的帶寬從這種寬帶進一步提升到超寬帶，然後這個實現過程並不是簡單的把採樣率升級就行的。

　　音頻外設存在着的多樣性、複雜性，在這裏我們為了保證我們超寬率語音技術能夠適配於各種硬件，我們在解決方案的魯棒性做了很多的工作，以保證在我們的超寬帶語音技術能夠在各種各樣的設備上面都儘可能地展現出它最優異的能力，提供一個最好的體驗。我們可以看到右邊一幅圖裏，經過超寬帶和非超寬帶處理，其實整個語音的清晰度是有很大的不一樣的。

　　另外，下面一個技術我們講是多次道語音增強技術。因為這也是在雲視頻會議場景裏面有一些會議室裏面，它會存在着多通道的音頻採集跟播放功能。我們在整個天籟音頻技術裏面會根據終端設備它能力的不一樣，來自動決定你是採用單通道還是多通道的語音降噪和增強功能。如果是多通道，還有另外一個值得在這裏介紹的，就是我們相應的去混響的技術。因為我們講是在一些特別是現在的辦公室裏面存在着這種玻璃房，裏面會存在通常有很強的混響。在這樣的條件之下，經過我們的多通道去混響和降噪技術能夠大幅度提升整個音質。

　　另外，值得一講的是，畢竟我們端到端的實時語音通訊，除了端上面的各種音效處理之外，我們的各種技術還是要跑在IP網絡上面。IP網絡我們都知道，面臨就是這樣一個最不確定的問題，就是它網絡的QOS 它的丟包、延遲、還有抖動，會對整個語音的流暢性連續性有一個很大的影響。所以我們在天籟音頻裏面有專門利用深度學習的技術，能夠突破業界裏面現在通常使用的20到40毫秒的這樣一個語音丟包補償的侷限性。

　　我們在我們的天籟音頻裏面，我們可以支持連續補償20到100毫秒的這樣的一個語音包的語音數據，能夠顯著的提升我們在弱網環境下的一個通信質量和可容度。我們可以看到其實經過我們實際的現網的一些數據證明我們可以把在現網上45%甚至45%丟包率的場景下，可以有效提升正個語音質量的MOS分到0.2到0.3分。

　　剛才我也提到聲學場景識別，其實對於我們整個方案的定製化有很重要的作用。在不同的聲學場景裏面，其實我們如果能夠準確的檢測到入會的參會人是什麼樣聲學場景，可以有針對性的進行很多處理。我們在整個聲音場景上面，我們今天還參加了DCASE2020的比賽，DCASE 2020比賽採集了12個歐洲城市的10種不同的聲學場景，有四大類不同錄音設備，我們的方案在這裏面取得了一個兩項單項排名第二的成績。現在我們方案可以有效的識別就像我剛才講的我們這種常用的入會場景，並且在不同的入會場景裏面根據它給出來的聲學場景識別的信息，做定製化的處理。

　　除此之外，我們發現在整個雲視頻會議裏面，我們還會有一些音樂內容。就像我講的一些或者屏幕分享的時候，你可能會是想把一些PPT的內容或者視頻的內容需要分享給對端的播放端的人來聽，這時候這裏面很大一部分內容可能是音樂內容，對於音樂內容來説，你的音質的要求可能會更高。

　　音樂的內容的話，不論從碼率來説，還是在採樣率來説，相對於傳統的語音來説都會豐富了很多，有更多的這樣的高頻的細節在這裏面。所以如果不能夠很有效的把音頻內容檢測出來的話，對於用户來説，在聽到這樣的視頻或者音樂或者是電影內容的時候，那他的體驗是不佳的。所以我們在整個天籟音頻裏面加入了音樂內容檢測。可以看到，我們的音樂內容檢測的準確率是很高的。我們在各種不同的端上面，在各種不同的場景裏面，只要是音樂內容我們都可以達到一個非常高的這樣的音樂內容檢測。然後一旦檢測到音樂內容，現在正在通過網絡傳輸，我們會有效提升整個音樂內容的音質。

　　另外，還有就是我們在整個我們講雲視頻會議場景裏面，其實碰到比較多的一個挑戰，就是同地多設備現象。在以前的這樣的一個傳統的視頻會議場景裏面，其實因為入會設備就那麼幾個。一個房間裏面就一個大屏，就一個電話是不存在這種多設備檢測入會的，但是現在在這種雲視頻會議場景裏面，每個人都拿一個電腦，他電腦都會入會，然後同時在房間裏面還會有各種傳統的設備可以入會。這裏面帶來了非常大的聲音挑戰，最直觀的就是這裏面很容易引起嘯叫，但實際上發生的時候問題的複雜度遠遠超過嘯叫，會帶來音質的損傷，會帶來漏回聲、會帶來嘯叫、會帶來一系列的影響整個會議體驗的這樣的一些問題。然後我們在這裏面，我們在天籟音頻裏面，我會講到我們通過一些語音相關性的信號以及我們通過音頻水印的內容，可以有效的檢測出現在是否存在着同點多設備現象，以及如果發生這種現象我們可以怎麼辦？

　　音頻水印技術其實跟視頻的水印有相似的地方，就是説把水印的信息加到聲音信號裏面去。在不影響人的聽覺體驗的情況之下，能夠有效的標識這段音頻它的身份，所以我們把音頻水印技術用在我們現在的同地多設備檢測裏面，顯著的提升了整個同地多設備檢測的這樣的一個準確性。

　　另外一個比較大的問題，在這種雲視頻會議裏面，我們講其實就是整個會議的系統的魯棒性。但是我們發現在很多一些消費類產品裏面，其實如果是使用它自己的一些廠商自研的方案，有時候會有漏回聲現象。其實漏回聲對整個會議音頻體驗的影響非常之大，我們為了解決這樣的問題，我們開發了殘留回聲的檢測技術，殘留回聲檢測技術可以有效的防範整個不同的客户端設備、不同的音頻外設由於它本身硬件或者軟件的一些缺陷帶來的這樣的一個殘留回聲，然後我們的系統在發現了一個系統殘留回聲的時候、還可以有效的對這樣的殘留回聲進行抑制，很好的彌補了一些硬件設備的不足。

　　感謝大家，我今天的分享內容就到這裏結束。總而言之一句話總結下來就是，天籟音頻技術是為了雲視頻會議而生。我們針對雲視頻會議上面的各種以前在傳統的視頻會議裏面沒有碰到的挑戰，有針對性的開發了多項技術，並且把它形成一套完整的解決方案。這也是大家能夠現在在騰訊會議使用過程當中能夠體驗到的這樣一個音頻端到端的最佳的體驗。

　　謝謝大家！