楊淨 蕭簫 發自 凹非寺
量子位 報道 | 公眾號 QbitAI直播延遲幾十秒,網友竟然還説“真香”?!!
你沒聽錯,這發生在英雄聯盟S11這種全球賽事上,而且,延遲高達30秒。
要知道S11觀眾量可是千萬級別,去年決賽最高同時觀看人數就多達4595萬人;
像這種頂尖賽事,保證音、畫質的低延遲本就應該是各大平台的“基本操作”,哪怕一點額外的延遲都是絕對不能忍的。
拿前幾天Dota2直播舉例,延遲15分鐘,網友們那可是羣情激憤……
而這回,S11直播,一個官方頻道延遲高達幾十秒——
這似乎是大型直播事故了吧?
但萬萬沒想到的是,彈幕畫風竟然一片“舒適”、“真香”。
怎摸回事?
我們順藤摸瓜來到了這個頻道,發現這是B站專門為聽障人士推出的無障礙直播間:
跟常規直播間不同的是,這個直播間是有AI實時字幕的,解説提到的隊名“T1”、“poke”等黑話基本都能正確顯示。
賽後採訪還有手語解説,整體會比常規直播間延遲幾十秒。
△已經有聽障人士用上了
其實,像這種直播字幕背後的AI實時語音識別技術,已經有不少應用了。包括油管的直播字幕、谷歌移動設備的視頻字幕和微軟PPT演講字幕等,都屬於這類技術。
不過,像這樣專門為直播留出一個無障礙直播間的平台,目前還不多。
要真正做好一個無障礙直播間,技術上究竟比普通實時字幕特殊在哪裏?
我們深入瞭解了一下,發現它比想象中更“難”。
無障礙語音識別,特殊在哪裏?在理解無障礙的特殊性之前,需要先知道直播中的實時字幕是怎麼來的。
從流程上來看,實時字幕處在直播視頻編碼和解碼中間的位置。
實時字幕是在視頻編解碼過程中,對音頻進行快速語音識別,再與視頻一起輸出的效果,整體大概是這麼一個過程:
△簡略版流程
可以看到,視頻本身還需要經過編解碼等傳輸流程,實時字幕製作則處在編碼和解碼中間的位置。
從技術本身來看,實時字幕用的是語音識別,具體分為人工識別和自動語音識別(ASR)兩種。
此前,由於ASR準確率上不去(尤其是中文識別),人工識別又需要好幾分鐘延遲,大型比賽直播中採用實時AI字幕的不多。
這些年AI技術上來了,視頻中應用自動語音識別ASR製作字幕的也多了起來,具體又分為流式ASR和非流式ASR。
非流式,指整段輸入語音、再輸出文字的結果;流式,指像“流水線一樣”實時輸出轉文字結果。
目前的流式ASR可以做到速度極快(毫秒級,肉眼看起來是實時)的輸出,經過訓練也能達到不錯的準確率;但與此同時,它也還有不少優化空間。
對於不同直播來説,選擇語音識別方法時,主要會從準確率和識別速度進行考量,像新聞直播更重視準確率,娛樂賽事直播更側重識別速度。
BUT,對於無障礙來説,賽事直播還會出現新的挑戰:
由於聽障人士無法快速建立視聽之間的聯繫,錯字詞需要更多反應時間,字幕的準確性要更高;此外,轉錄的字句需要有一定視覺流暢性;最後,賽事直播的延遲也不能太高。
一方面,受限於語音的停頓、音頻切分的長度,流式ASR目前能做到低延遲和基本的準確率,但往往視覺閲讀的流暢性會有所降低,“每個字都會,停頓後就看不懂了”:
△每個字都會,就是看不懂
另一方面,流式ASR模型需要滿足一定長度的音頻輸入,才會處理並輸出文字,非常依賴語速和説話流暢度的穩定。
例如,主持人通常在電競團戰或是進球前夕等情況下,語速變得非常快(例如華少最快能達到18秒215字),或是因為思考出現頻繁斷句,就會嚴重影響流式ASR技術的“發揮”。
在這種情況下,流式ASR語音識別的結果如不經過處理、直接輸出的話,就會出現字幕空白、頻繁停頓,或是大段爆發輸出的情況。
為了讓字幕流更加穩定(能輸出整段整句)、準確率也更高,B站在採用訊飛聽見技術進行流式ASR識別(毫秒級延遲)時,選擇將無障礙直播間整體進行適當延遲,來確保閲讀流暢性,主要做了這些操作:
其一,B站專門梳理了英雄聯盟賽事相關的500+專有詞彙,包括戰隊、選手、賽區、遊戲英雄名稱、比賽術語、解説相關術語、S賽名句等等,將這些詞彙接入到訊飛聽見服務器中,進行轉譯結果優化處理;
其二,針對語速不穩定的情況,在文字處理部分,B站將流式ASR輸出的文字,根據閲讀習慣進行自動換行,使之更符合用户的視覺理解;
其三,針對整體閲讀體驗,B站專門製作了一款輔助軟件,將人工複查操作進一步流程化,進一步為聽障人士提升字幕準確率……
這也解釋了B站無障礙直播間略有延遲的原因:提升了字幕閲讀體驗。
不止實時語音識別技術事實上,這個無障礙電競賽事直播間,還不止語音技術服務這麼簡單。
比如,手語直播瞭解一下?
B站邀請了手語翻譯的代表人物韓清泉老師,由其領銜的專業翻譯團隊來進行手語輔助,他們會在賽果播報及賽後採訪環節提供實時手語翻譯。
此外,在每個比賽日,直播間還推出了觀賽小助手,即手語教學內容。像網友都很好奇的超神、一血、補刀、中單、輔助、經濟等這些熱門詞彙,此前都已經一一亮相。
不少人認為,之所以上線手語輔助功能,是因為語音轉字幕會出錯,而手語能夠幫助理解。
實際上,還有更深層次的原因。
韓清泉老師解釋説,對於會手語的朋友而言,如果只有文字和手語兩種交流方式可供選擇,他們一定會毫不猶豫選擇手語,因為用手語交流會有強烈的代入感。通過這種方式,聽障朋友們就能強烈感受到被這麼多人關注着。
至於大家很疑惑的“為什麼不是全程的手語直播?”事實上,手語也是有方言的。像英雄聯盟這類全球性的遊戲賽事,要想全程手語直播,需要建立一套新的專有名詞。
現有的語音實時字幕雖然無法做到100%準確,但已經能滿足大部分聽障人士的理解需求。
2006年全國第二次殘疾人抽樣調查顯示,我國殘疾性聽力障礙人羣達到2780萬;而根據2017年北京聽力協會預估,中國聽障人士的數量已經達到7200萬,這個數字仍在持續增長。
如今,B站為了照顧這當中一些賽事愛好者的觀賽體驗,專門開設無障礙直播間,引得不少網友紛紛點贊:
格局大了。
這次的無障礙我真的吹爆!雖然殘障人士是少數人,但少數人也有享受一切的資格。
放眼整個遊戲行業的發展歷程,B站這種對殘障人士的關懷思考,其道不孤。
最知名的莫過於是2018年9月,微軟推出的Xbox自適應手柄——Xbox Adaptive Controller。
30釐米長的手柄上有兩個大的可編程按鈕和19個插孔,可連接到一系列的操縱桿、按鈕和開關。
即便有些玩家對價格表示不滿,因為這款手柄要99美元(人民幣700元左右),比普通手柄高出40美元,但當時在業內卻引起了不少的轟動以及好評。
△B站知名遊戲區UP主@-鴉-karas
那一年,這件產品還被時代週刊評為50大發明之一,並獲得意大利電子遊戲獎創新獎。
硬件的突破很吸引眼球,但軟件上的支持也同樣重要。
三大遊戲廠商中的另兩家索尼和任天堂,這幾年也在軟硬件改進上做了不少努力。
索尼早在設計PS4時,就做了許多針對障礙玩家的硬件優化和輔助功能。
例如,(手柄等)按鈕可以重新編程、文本轉語音(TTS)、文本放大器等功能,都是針對肢體障礙、視障等羣體的設計。
在某些需要QTE(快速反應)的遊戲中,玩家可以修改手柄按鍵功能,將反覆點按換成長按不放,也能達到連續按鍵效果。
任天堂系列產品,也都包含了相應輔助功能,包括觸覺和聽覺反饋、灰度顯示、運動控制、反轉顏色等玩法,為有障礙的玩家拓寬了可玩遊戲範圍。
△色盲人士看馬里奧是這樣的(右)
去年,遊戲屆奧斯卡獎The Game Awards(TGA)還專門設立一項最佳無障礙創新獎,來鼓勵遊戲廠商們為殘障玩家服務。
不止是產品中輔助功能的更新,現在,更多的科技公司開始關注到無障礙相關的技術研發。
比如,眼球追蹤技術。
如Tobii公司的眼動儀,就允許玩家通過眼球移動來控制數字界面,也已經有更多產品支持這項技術;又如Tribe Game的推出的《超點》動作遊戲,玩家就能通過眼球追蹤技術,完成對整個遊戲的操控:
還有眾多企業押注的腦機接口技術。
無障礙遊戲就是腦機接口核心應用場景之一。它能讓人們只通過意識就完成機械操控、文字輸入等操作。
不少科技公司對這項技術投入了研究,其中就包括Steam。G胖表示,Steam正在與開源腦機接口平台OpenBCI合作,共同開發一項腦機接口軟件開源項目。
可以明顯看到,更多科技公司與平台在關注殘障人羣“無障礙”體驗文娛服務這件事。
而且這個羣體,確實不應被忽略。
以往我們多數人只是在電視新聞中看到有企業機構關注他們的現實生計、剛需,但細想一下,這些聽障朋友的精神需求,同樣是生活中重要一環。
所幸,這樣的需求正在越來越被廣泛關注。
除了最直接的影響——對殘障人士有益之外,科技走向“無障礙”本身還有更多額外價值。
對於他們來説,技術人員正在成為智能時代的“掃盲僧”。
如今,數字化智能化服務為大多數人帶來便利,但始終存在這樣一批被攔截在技術之外的“失語者”和“局外人”。
他們或是不同程度的殘障人士,或是行動不便的老年人、又或是那些因為特殊原因不能享受科技福祉的少數羣體。
但誰來扛起這個“掃盲僧”的責任——將科技惠澤到更多羣體呢?
如前所述,就是那些原本改變這一切的人,所謂的“無障礙”場景,正是技術人員的練兵場。
如何練兵?該往哪個方向練兵?
這就離不開掃盲僧的核心秘籍——企業的“以人為本”價值觀。
甚至從某種意義上説,這種價值觀是最終實現的關鍵一環。
即使輸出的產品功能再小、技術也不那麼前沿,但只要能物盡其用,它所帶來的價值就會更加長遠。
這次B站是聚焦聽障羣體,下次也許就是視障羣體,再下次可能就是老年用户……細想一下,一個平台最終不正是這麼多小眾用户共同組成的麼?
畢竟,科技本身就應該是無障礙的。
如果哪天,地球上不再存在什麼“失語者”、“局外人”,技術無障礙的終極意義,也就真正實現了吧。
— 完 —
量子位 QbitAI · 頭條號簽約