這裏是LiveVideoStackCon 2020講師專訪系列 ——
丁文鵬
:百度智能雲主任構架師,博士,畢業於中國科學技術大學, 現任百度視頻雲主任構架師。主要研究方向包括視頻編解碼標準、視頻編碼器優化、視頻質量增強等。在相關領域發表多篇論文和提案,並獲得40 多項相關專利。
BD265是下一代智能編碼
——本次訪談介紹百度在視頻解碼器技術上的一些進展,重點介紹百度如何結合AI技術打造BD265編碼器,以及百度BD265編碼器在業務落地上的一些實戰經驗。
BD265
有何特點?
BD265的特點就是“更快更省更AI”,最大的競爭優勢是編碼效率高:對比x265,BD265能節省30%以上的碼率。在編碼速度上,BD265是x265的兩倍到四倍。同時BD265還結合了百度自研的CAE技術,給實際業務帶來了更多的帶寬節省。
在這裏,也想和大家分享一些我們團隊曾經犯過的錯誤。其中一個典型的例子就是多線程會影響算法的性能,因此測試算法的時候要考慮當前目標平台的實際硬件。我們研發算法的時候線程數比較少,而實際服務器的核心數很多,這就使得算法的性能下降很多。如果測試的時候不用目標平台的實際硬件去測試,那麼就發現不了問題。
第二個例子,是每個bad case其實都是我們算法改進的契機。我們平時的測試主要是一些常見的測試序列,後來我們大幅擴充了編碼器的測試序列,結果是發現了很多編碼器的改進算法。
百度的編解碼團隊目前還是專注在BD265的編碼效率和編碼速度的改進,但同時我們也開始研發AV1、VVC、AVS3等新一代標準的編碼器。
下一代智能編碼有何特性?
基於AI的編碼研究目前大致有兩類:一類是利用AI對編碼器優化,不改變解碼器;另一類是利用AI技術改進編碼工具,編解碼器同時改進。
短期看來,利用AI優化編碼器能更快落地。長期來看的話,一些基於AI的編碼工具已經顯著改進了編碼效率。如果將來的AI硬件更加普及,未來的視頻編碼標準可能採用這些編碼工具。
BD265的最大特點是在傳統的編碼流程中引入了一個並行的基於深度學習的分析過程。
我們利用深度學習的分析結果來指導編碼器如何進行運動估計、模式選擇和碼率分配。
未來
標準和解碼器走向
統一的視頻編解碼標準對於企業部署來講是最好的。但是編碼標準不僅僅是技術問題也是商業問題,所以統一的視頻編解碼標準可以有專利收費過高的問題。比如HEVC/H.265技術上是非常優秀的,但是專利問題影響了它的推廣。
目前來看,未來會是多個視頻標準並存和相互競爭的局面。AOM的聯盟的AV1、MPEG/ITU2020發佈的VVC/EVC在未來幾年會是主要的競爭者。而AV1、 HEVC/H.26之間的相互競爭也一定程度上促進了行業的發展。另外,CAE技術、主觀優化技術也會是未來重點發力的方向。
視頻編解碼器方面,x264/x265是開源的H.264和H.265的編碼器,它們是很好的商業編碼器的樣本,值得大家學習。當前很多學術論文的的實驗平台都是參考軟件,比如JM、HM。
參考軟件和高度優化的商業化的編碼器的差異是巨大的,這讓很多論文缺少實際意義。比如HM的插值濾波器的複雜度佔比很高,而x265中插值濾波器有彙編優化,複雜佔比不高,這樣插值濾波器優化算法在實際應用中作用不大。我建議做學術研究的時候也可以考慮用商業化的軟件作為實驗平台。
其實,視頻編碼器的核心架構近二十年都沒有大的變化。去看編碼器的框架圖,你就會發現,除了coding tools 越來越多之外,大體上是沒有核心變革的,新一代編碼器編碼效率的提升基本上是用更高的計算代價換來的。
我期待未來的編碼器不僅僅是用計算複雜度換性能,而是有更多的創新,能更好的利用新的技術。
“我從2004開始接觸視頻編解碼器技術,從H.264,H.265到AV1,VVC. 我感覺視頻編碼技術領域是一個快速發展的領域,我們做技術的需要不斷學習不斷創新才能保證自己不落伍,正好最近讀了一本關於創新的書
《第二曲線創新》
,這裏推薦給大家。”