開啓技術合作新範式。
作者 | 李亮編輯 | 蘇子華
幾天前,特斯拉表示,正在努力讓用户在車載屏幕上玩 steam 的各種遊戲。對於開發者而言,這意味着不需要進行移植或修改,大部分遊戲就能接入車載屏,在座艙中運行。聽到這樣的消息,立刻有人興奮地問:我是不是可以在電動皮卡上玩《賽博朋克 2077》了?
人對更沉浸、更美好的體驗有着天然的嚮往。一塊屏幕不斷髮展,就可以帶來豐富體驗。雖然目前智能汽車裏的屏幕只擁有導航等簡單的功能,但不久的將來,看電影、直播互動、視頻開會都將成為常常在車裏做的事情。
越來越習慣互動直播、視頻連線的當下,人們對音視頻的期待也從「看什麼」變成了「怎麼看」,期待更順滑的體驗。
迎接這樣的未來,除了可以想象的硬件和算力進步,編轉碼、畫質算法等底層音頻技術也是不可或缺的前提。
正是對未來視頻交互廣泛場景的探索,讓阿里雲、騰訊雲、和誕生於字節的火山引擎在今天聯合發佈一項新的技術標準——超低延時直播協議信令標準。這套標準,首次將傳統直播技術 3 至 6 秒的延時縮短到 1 秒。這是第一個適合直播低延時的通用標準方案,也是三家技術先進方推動技術進步的一次嘗試,將已驗證的「最佳實踐」普及。
這套標準可廣泛應用於賽事直播、在線教育、電商直播等對實時性要求較高的場景,帶來超低延時、低卡頓、秒開流暢的直播體驗。
此次的新技術標準,三方以推動行業直播技術進步、提升用户體驗為初衷,在技術層面上共同探討與協助。2 月 25 日舉行的「火山引擎視頻雲科技原力峯會」上,火山引擎直播技術負責人週一楠説,[在超低延時這個方向上,阿里雲、騰訊雲和火山引擎一起,做了一件大事,為整個直播的發展做出了貢獻」。
01 泛視頻時代,需要怎樣的直播技術「姐的眼睛就是尺」,王濛的金句隨着直播講解輻射開來。當下的情緒、即時的反應,直播不僅傳遞信息,更是陪伴與交互的載體。音視頻直播技術,也成為了目前最流行的在線交互方式之一。即時流暢是直播內在的追求。具體到音視頻傳輸的技術上,通用與高效,是直播技術發展變遷的終極目標。
直播場景中,人與人會直接建立連接。一旦出現延時,就會出現各種問題。例如,主播反饋慢,電競和搶購也會由於延時不同導致不在同一個水平線,線上的 PK 也會因效果不同而不公平。
通過內部 A/B 測試的方法,火山引擎驗證了低延時的對觀看行為的直接影響。在內部的反轉實驗中,團隊將 3 秒的端到端延時的播放重新提升為 7 秒,用户的觀看時長下降了 1.3%。
目前,市面上沒有合適直播的低延時通用標準方案。這也是火山引擎、阿里雲、騰訊雲共同探索出的這套方案,提供一套標準,從而讓各種直播業務,邁入 1s 內規模分發的大關。
所謂低延時,也就是直播時端到端的延時達到 500 毫秒~1500 毫秒,人眼無感。一套標準方案,也讓不同的技術供應商之間方便互通。參與者使用一套 SDK(Soft Development kit,軟件開發工具包)即可無縫切換各種供應商的產品。
這項協議交互細節全部開放,也將在 Github 上逐步開放,其他三方公司可按照標準來實現服務端和客户端接入。
在視頻雲原力峯會上,行業人士也分享了對於視頻技術趨勢的觀察。IDC 企業及系統軟件研究部研究經理魏雲峯表示,根據研究預測,2025 年全球實時產生的數據裏將有 25% 以非結構化存在。這其中,大部分將以圖片、視頻的形式存在。
未來對於音視頻的需求可以歸納為清晰、流暢、互動。2020 年,中國視頻雲市場的規模接近 70 億,並且在過去 2 年保持了年均複合增長率 50% 以上的增速。例如線上教育、遠程手術、金融行業的內訓等更多場景都會需要更便捷高質的視頻技術。這些領域的具體需求不同,對應的視頻雲方案既需要差異化,又需要能夠低門檻。
02 從「中台」到「To B」,從「能力」到「體驗」視頻雲是火山引擎雲業務的一環,隨着字節跳動的視頻業務而成長,在字節跳動內部支撐了抖音、西瓜視頻的播放體驗。目前,其技術支持着每日 1 億次播放、數千萬次互動的應用。
火山引擎視頻雲技術負責人浩銘介紹,火山引擎團隊在思考對視頻端到端體驗的持續優化的過程中,逐漸意識到體驗的重要性。
隨着支持字節的產品越來越多,團隊開始思考,「把作為中颱的業務模式變成 to B 的服務模式,會在業務支持效率和組織效能上有更大的提升。」
從技術出發往往思考的是功能指標(QoS),而火山引擎從體驗指標(QoE)去思考問題,將技術指標直接與業務的增長結果關聯。
這樣的思維也帶來許多有價值的發現。例如,網絡受限的用户不得不選擇低分辨率播放模式。如果在帶寬受限的情況下將畫質優化,做超分處理,整個大盤的播放時長能夠提升 0.23%。
甚至一些容易被忽略的指標也會帶來明顯影響。在點播時前後視頻的音量可能會忽高忽低,實現了音量均衡之後,結果顯示,不僅僅人均觀看時長提升了 3%,電商直播的 GMV 也提升了 4%。
在不同的應用場景上,火山引擎很早就嘗試了各種合作,以驗證技術效果。例如,點播上,火山引擎視頻云為足球社區APP「懂球帝」提供了視頻雲解決方案,幫助「懂球帝」解決了播放中首屏卡頓的問題。球迷在瀏覽 APP 中的視頻時,首幀時間降低 30% 以上。
峯會上,PICO 行業資深市場專家劉凱展望了未來視頻互動的場景。他認為,未來用户會希望和視頻本身交流,因此,許多廠商在研究的「立體視頻」會有大量的應用空間。視頻雲技術負責人浩銘表示,未來 VR 的視頻互動會呈現更大的自由度、以及虛實結合兩個特點。火山引擎將與 PICO 共同打磨更多沉浸式的視頻體驗,不斷沉澱到視頻雲的解決方案中。
03 體驗優化的四個維度視頻體驗如何建立指標並優化?火山引擎的視頻雲將其分為四個部分:播放體驗、互動體驗、畫質體驗、性能體驗。在四個不同維度上建立指標,以求數據驅動的業務增長。
播放體驗的優化,意味着首幀壓縮到 100ms 以下,崩潰率小於 1/10000。首幀即是視頻播放的第一幀。
其實 100ms 是一個更為嚴苛的指標。因為按照人眼自然體驗,當你被一個視頻封面吸引,點擊播放到首幀渲染出來的耗時小於 200ms 時,基本就沒有延時和卡頓感了。而崩潰率小於 1/100000,這意味着,一個人每天刷 100 個短視頻,3 年才能遇到一次播放器崩潰。
互動體驗則集合了不同維度的指標,聚焦服務直播場景。目前多人線上語音沙龍是非常流行的互動方式,一般多人同時在線時,同時開麥的人數需要控制在 20 到 50 人,且多人共同説話時卡頓、吞音常常出現。
視頻雲首次實現了單房間上麥人數超過1000人服務。多人同時説話、搶答,語音即使重疊也會完整傳遞。百萬級用户高併發,可以讓單個直播間容納超過1000個主播。
畫質體驗上,火山引擎提供的 BVC 編碼器,能夠在保證畫質清晰度不變的情況下,帶寬比行業競品降低 10%。性能優化涉及使用成本,火山引擎從三個方面入手:提供參數配置、碼率配置的最優解;自研算法實現圖片壓縮更優;視頻高清低碼,主觀效果相同下,碼率再節省 10%~20%。
火山引擎總經理譚待表示,開放互聯是火山引擎雲服務的重要發展理念。火山引擎希望與產業的各方、上下游進行深度合作。一方面希望把自己最好的技術拿出來,輸出最佳實踐;另外一方面,此次火山引擎與阿里雲、騰訊雲的技術合作是共建開放的協議標準,也歡迎更多人直接參與到標準的接入和建設。
*頭圖來源:視覺中國