參與:蛋醬、小舟
要想不被別人猜到自己在嘀咕什麼,只能永遠戴著口罩了。
有一個人類的本能行為,或許我們很難察覺:當因為隔得太遠或者環境噪音太大而聽不清對方說話的時候,你會下意識地觀察對方的唇部動作,來判斷這個人到底在講什麼。
實際上,對於失聰或者聽力較弱的人來說,唇讀也是一項必須掌握的技能。
既然人類可以從唇部動作中讀取講話的內容,反過來說,我們是否能夠教會 AI 去學習這套方法,並且再進一步輸出語音呢?答案是肯定的,並且這門技術已經在公共安全等領域有著相當廣泛的應用。
近日,來自印度海得拉巴國際資訊科技研究所(IIIT, Hyderabad)的團隊釋出了他們在這一領域的最新成果。目前,該研究的程式碼、資料、模型均已公佈。
論文連結:
https://arxiv.org/abs/2005.08209
專案地址:
https://github.com/Rudrabha/Lip2Wav
要想由唇部動作生成語音,必須一些無法忽視的阻礙,比如很多聽覺上完全不同的聲音,在唇部動作上是十分相似甚至完全一樣的。
對於專業的唇讀者來說,他們會藉助其他方式來增加還原唇語的準確性,比如根據所談論話題去聯想、根據面部表情和手勢等因素去推測。還有一點就是,對於聾啞人和專業的唇讀者來說,讀取那些經常互動的人的唇語會更容易。
在這項研究中,研究者從一個新的層面去探討了唇語合成的問題:沒有隨機挑選很多個人進行唇讀,而是專注於長時間觀察某一個人的講述內容,來學習 ta 的特定講話模式。研究者從資料驅動學習的維度去探討一個問題:「如何從一個人的唇部動作來準確地推斷 ta 的個人語言風格和內容?」
最終,研究者收集了一個 120 小時的影片資料集,其中 5 位講話者在不受約束的環境中進行自然陳述。與現有的多講話者資料集相比,為了搭建特定講話者的視聽線索的準確模型,每個人被收集的語音資料多了 80 倍不止。這也是當前在不受約束的環境中評估單人唇語語音生成方面,僅有的已公開的大規模基準測試。
在此基礎上,研究者提出了「Lip2Wav」,一種基於唇部動作生成語音的序列 - 序列模型。研究者透過定量分析、定性分析以及消融研究等多種方式詳細介紹了這一模型。與之前的同類模型相比,Lip2Wav 在不受約束環境中生成語音的清晰度提高了接近 4 倍,在人工評估方面也顯示,該模型生成語音的韻律更加豐富自然。
資料集
研究者提出了一個新的基準資料集,用於無約束唇語合成,以探索如何準確地從一個人的唇部動作推斷出 ta 講話的方式和內容。為了構建 Lip2Wav 資料集,研究者收集了一共 5 個講話者的 120 小時的講話影片。
Lip2Wav 資料集和其他用於影片語音生成的資料集各項對比。
資料集包含演講和國際象棋解說兩種型別。
架構解析
Lip2Wav 的網路包括一個時空編碼器和一個基於注意力的解碼器。時空編碼器將多個 T 幀作為輸入,然後透過一個基於 3D 卷積神經網路的編碼器進行輸出。研究者將基於 3D 卷積神經網路的編碼器的輸出饋送到基於注意力的語音解碼器,遵循 seq-to-seq 範例生成譜圖。
圖 3:用於唇語合成的 Lip2Wav 模型。時空編碼器是一個用來提取嘴唇動作序列的 3D 卷積棧。接下來是用於高質量語音生成的解碼器。這個解碼器根據來自編碼器的面部影象特徵進行調整,並且以自動迴歸的方式生成頻譜圖。
實驗
研究者首先將他們的方法和之前的唇語生成研究在有約束資料集(GRID corpus 和 TCD-TIMIT 唇語語料庫)上作了比較並加以評估。在 GRID 資料集上,研究者給出了 4 位講話者的平均測試分數,表 2 和表 3 分別展示了在 GRID 和 TIMIT 資料集上的結果。
如上表所示,在所有客觀指標上,本文研究方法的效果評估結果要比同類方法好得多,在 TIMIT 資料集上的差距尤其明顯。TIMIT 資料集中的測試集包含了很多訓練期間沒有見過的新詞。這表明該研究的模型學會了捕獲短音素序列之間的相關性,並且在新單詞上有更好的發音生成效果。
在無約束條件下的唇語合成
研究者進一步在包含大量頭部動作和更多詞彙的無約束資料集上評估了該研究方法,其中包含大量單詞和句子之間的沉默或停頓,實驗結果依然顯現出明顯的差距。
為了與之前的研究方法對比,研究者基於 STOI 分值選擇了在 TIMIT 資料集上效能最佳的模型,並展示了模型經過 Lip2Wav 資料集訓練之後的效能。研究者計算了和表 3 相同的語音清晰度和質量指標。
最終得到的 5 位講話者的分值以及另外兩種方法的 3 項指標結果如表 4 所示。
在不同的講話者和詞彙規模條件下,本文提出的方法能夠生成更加智慧和自然的語音。注意,和之前的研究相比,該方法的 STOI 和 ESTOI 分值越高,意味著模型生成的發音越準確。
人工評估
除了語音質量和清晰度之外,研究者也設定了人工評估環節,客觀指標包括誤讀、跳詞、同音異義詞等,主觀指標包括可理解性和自然程度等。
表 5: 客觀指標。
表 6: 主觀指標。
在論文的ainment/XtsybDNBJA.html">最後一部分,研究者也展示了 Lip2Wav 的幾項消融實驗結果。此外,該研究的 demo 影片也已經公佈:
00:00/00:00倍速
但有人質疑,由 5 位講話者資料訓練的模型功能實在有限。
研究者也承認了這一點,儘管有了良好實驗結果的支援,這一模型在隨機人物的唇語生成方面仍然「不算準確」,此類任務目前只能說是「任重而道遠」吧。
參考連結:
https://www.reddit.com/r/MachineLearning/comments/gt6rrp/research_lip2wav_synthesize_speech_only_from_the/