鈦媒體App在小鵬P7試駕現場
如果在你的愛車裡,有一款能像人一樣表達情緒的智慧車載語音助手,它媲美人聲,不用反覆喚起就能流暢對話,會對你說“好滴”而不是“好的”,這樣的語音助手你會心動嗎?
不久前,小鵬汽車P7車型進行了一次重要的OTA(Over-The-Air,遠端空中下載)系統升級,其中語音助手小P媲美人聲的更新,再次拉高了智慧汽車語音助手的水平線。
“耗時十個月上線,這是一次汽車界對車載語音的前沿探索。”小鵬汽車AI產品高階專家郝超說道。
對於車載語音來說,“媲美人聲”為什麼很重要,小P的更新到底高明在什麼地方?我們跟郝超以及微軟雲計算與人工智慧事業部產品總監丁秉公聊了聊關於車載語音的那些事兒。
車載語音“媲美人聲”為什麼很重要?不知道大家有沒有這種感覺,在手機上或者智慧音箱上聽機器人播新聞,好像總沒有真人主播播得痛快;特別是無聊的時候,想跟語音助手逗個樂,三兩句話下來,總會無奈地自言自語一句:“它真的好傻啊。”
在業界,這種同語音助手互動不流暢帶來的不適感,可以用“聽覺疲勞”來形容。而相對於家常環境場景下的語音互動,如在長時間開車的場景下,車主很大程度上會放大對聽覺疲勞的感知。換句話說,車主對語音助手語音流暢度、自然度敏感性更高,對車載語音助手更逼近人聲的需求也更高。
“小P升級後,很多車主半夜蹲點兒去車裡搶先試聽新聲音。”郝超說起小P剛更新時一些車主的反應。
這與車載語音產品不斷追求“媲美人聲”的效果,形成了一種默契。“原來我們可能只追求讓大家把聲音聽懂就行,後來我們認為不僅要聽懂,還要像人聲一樣更加自然,最後我們覺得自然還不夠,還想用多情感的聲音來代替單調的聲音。”丁秉公表示。
因此早在2018年,為了讓人工智慧的聲音更自然,微軟就已經在神經網路語音合成技術上做了很多工作。最近兩年來,該技術的不斷創新使合成聲音錯誤率進一步減少、顯著提升了句子韻律的合成質量和語音的高保真度。
資料顯示,經行業公認的、專業評估語音自然度的MOS(Mean Opinion Score平均意見評分)測試,微軟AI語音評分4.49分(真人錄音得分 4.5分),這證明在音質、發音、說話準確性和清晰度等方面,合成語音已經能夠與真人錄音樣本相媲美。
這種更自然的合成聲音也推動了車載語音場景的應用的落地,小鵬汽車在這個過程中成了那個率先吃螃蟹的人。
不過需要強調的是,微軟提供的神經網路語音合成技術、及其背後的語音模型,都是平臺化的可匹配多行業的通用產品,要將這種通用產品與小鵬汽車的特定場景融合,雙方還要在“車載”場景上做很多融合。
“車規級”語音需要克服哪些難點?有人可能會說,車載語音不就是語音互動嗎,現在不管是手機還是音箱,但凡帶點“智慧”,讓它“說話”似乎並不是什麼難事。這種質疑並沒有什麼問題,但仔細想來,就像晶片也有車規級一樣,汽車的語音互動系統也在不斷追求“車規級”的完美。
據郝超和丁秉公介紹,車規級語音需要克服的挑戰主要有3個:
第一,應對汽車移動狀態下的網路抖動,在保證聲音保真率的情況下儘量壓縮對流量及硬體效能的消耗,同時還要解決合成語音上比較難的歧義、分詞問題。
為了應對網路抖動,小鵬汽車採取了多級快取的方法,把好的聲音提前進行各級快取然後下發,儘量減少對網路的依賴。“比如系統判斷前方500米有攝像頭,該播報了,但可能在‘前方’兩個字播出之後會因為網路抖動導致這句話播不全,那系統會啟動語意動態等待。”郝超說,“等個1-2秒,網路抖動過去,再播報。雖然多開了兩米,但在可接受範圍內。”不過,像“前方右轉”等這類特殊情況除外,系統則不會啟動動態等待。
第二個比較大的難點是語音高保真度帶來的連鎖挑戰。
一般情況下,大部分車載語音系統的語音取樣率為16k HZ(一秒鐘有1萬6千個取樣點),量化水平在8位元(每個取樣點資料量為8位元)。而小鵬汽車使用的語音模型在取樣率上達到了24k HZ,量化水平為16位元,這也就意味著一秒鐘的資訊量是幾十KB,那麼一分鐘可能就是幾十兆,一小時可能就是接近一個G,一天就是幾十G。不壓縮的話,這麼大流量的壓力是非常大的。
“除了剛才談到的多級快取,雲計算在這裡也起到了很大的作用。這些高質量的聲音與微軟雲相結合,在不降低聲音質量的情況下,能夠實現使用者對高保真語音體驗上的實時傳輸。”丁秉公表示。
高保真的聲音也增加了對整車CPU的資源佔用。因此,在實踐過程中,小鵬汽車儘量不佔用本地的計算資源,在網路條件好的情況下儘量對線上模型發起請求,而不是依賴本地,儘量平衡單位週期內對CPU的佔用。
另外一個挑戰是解決合成語音中歧義的問題。中文的分詞,多音字,數字讀法等都有歧義問題。一個典型的例子是比如“南京市長江大橋”,合成語音可能斷句為“南京 市長 江大橋”,這類烏龍在AI合成語音中目前仍然很常見。“在不同的場景下,受眾對歧義的容忍度有很大差別。因此我們希望針對合成語音的使用場景進行最佳化,減少歧義對使用者體驗的影響。”丁秉公強調。
比如,還是上文談到的人工智慧播新聞的場景,這個時候AI分詞出現錯誤最嚴重可能就是對某個句子聽不懂,但在車載場景下可能直接影響到車主的車況。這些都要在車載端做最佳化,保證車主在開得比較快、噪音比較大的聽音環境下也能夠聽到高保真的聲音。這也是車規級語音同我們日常用的智慧手機語音助手、智慧音箱助手比較大的不同。
車載語音“媲美人聲”是壁壘還是趨勢?技術在產業落地的過程,往往被看作是技術尋找場景的過程。場景找到了,技術是否高深、前沿便顯得沒那麼重要。
小鵬汽車的媲美人聲的車載語音助手也正是運用了微軟的通用語言模型才達到了當前的效果。但對於使用了通用技術的小鵬來說,小P的煉成是一次前沿技術的探索,還是通用技術落地的其中一環呢?
對於這個問題,郝超的答案更偏向於前者。“當大家不知道AI能做什麼事情的時候,可能認為,找場景更重要。把現有的這些技術落地到某一個場景,可能就有AI了。這是因為大家對這個事情理解不深。”他說,“當對整個車載場景,或者對出行有足夠深的理解的話,就會發現這裡面有太多太多的問題要解決。”
郝超認為,智慧汽車非常依賴高精尖技術,甚至現在很多技術做不到的事情,他們也希望能嘗試透過技術來解決。也就是說,對於新技術的應用,小鵬汽車的思路是,不是有這樣一個技術能用到什麼樣的場景,而是我們看到這樣一個場景,去探索、尋找有沒有更好的技術來解決。
“作為一個造車新技術的探索者,可能踩的坑會比較多,甚至成本也很高,但其實我們一直是希望探索明白了之後,路趟平了之後,告訴業內同行們,這個方向使用者是認可的。以此推動整個行業的進步。”郝超總結。
事實證明,小P的上線確實達到了這樣的效果。
當下,作為提供通用技術平臺的微軟也正在將小鵬汽車對於語音模型的應用經驗,反哺到通用語音模型中。
“從技術上面,我們其實想大道至簡,用一套模型可以服務所有的使用者。”丁秉公說道。他認為,微軟在不同行業裡的積累,正在擴大微軟的模型能力,觸類旁通後,使得像小鵬這樣的企業能夠在他們的基礎模型上,享受到平臺級的AI模型紅利。(本文首發鈦媒體App,作者 | 秦聰慧)