AI正變得越來越智能,許多機器人產品已經可以和人有效交流。但是,要完全複製人類的交流,AI要做的不僅是知道該説什麼,還應該模仿正常人説話時的行為——比如説,大家一聽到特朗普的聲音,就會想到他標誌性的手勢。
卡內基梅隆大學的研究人員最近進行了一項研究,希望虛擬助手和機器人在和人交流時,能像人一樣配合一些自然手勢。他們將這種可以自動適配交流內容、產生自然手勢的模型叫做Mix-StAGE。目前論文發表在預印本平台arXiv,並計劃于于2020年歐洲計算機視覺會議(ECCV)上發表。
Mix-StAGE的關鍵思想是將許多不同樣式的手勢納入一個通用的手勢空間。此手勢空間包含所有可能的手勢,這些手勢按樣式分組。Mix-StAGE的後半部分學習如何在與輸入語音信號同步的同時預測任何給定樣式的手勢,這一過程稱為樣式轉移。
Mix-StAGE經過培訓可以為多個説話者產生有效的手勢,學習每個説話者的獨特風格特徵併產生與這些特徵匹配的手勢。另外,該模型可以為另一位演講者的語音生成一個演講者風格的手勢。例如,它可以生成與説話者A所講的手勢相符的手勢,而手勢通常由説話者B使用。
與以前的方法要求每種樣式都需要一個單獨的模型不同,新方法能夠用一個模型(即涉及較少的內存)來表示許多手勢樣式。
為了訓練Mix-StAGE,研究人員彙編了一個名為Pose-Audio-Transcript-Style(PATS)的數據集,其中包含25個説話的人的語音記錄,總計250個小時以上,並且與手勢匹配。在目前的研究中,當生成手勢時,模型專注於語音的非語言部分(例如,韻律)。下一步則是將語音的言語部分作為另一種輸入。
譯/前瞻經濟學人APP資訊組
參考資料:
[1]https://techxplore.com/news/2020-08-mix-stage-gestures-accompany-virtual-agent.html
[2]https://arxiv.org/abs/2007.12553