IT之家12月11日消息 近期,微軟智能語音實現技術升級,一次性新增了 5 個聲音角色供用户自由選擇,覆蓋男女聲和不同年齡段,以及不同性格和聲線特徵,包括陽光活潑的男青年(雲希)和獨立自信的女青年(曉萱),温柔大方的女中青年(曉涵)和多才多藝的女青年(曉墨),以及成熟睿智的女中老年(曉睿)。另外,中年男聲(雲野)也同步更新了多種聲音風格。他們與此前多個聲音角色一起,共同組成了微軟豐富的中文智能語音 “家族”。
下面是新增以及更新角色聲音 demo:
類似人類主播在播講一個有聲小説時會模擬不同的角色,微軟最新的智能語音也支持聲線變換,一人模擬多個角色,比如女生扮演男生,年輕人扮演老人的聲音,做到 “聲隨境轉”,大秀聲音 “演技”。同時,不同的聲線變化也包含多種情感變換,讓角色更加活靈活現。
正是基於這些豐富多樣且功能強大的聲音角色,用户得以自由組合出豐富的音頻產品。
IT之家獲悉,這些新聲音在開發過程中採用了最新的遷移學習技術,僅利用少量表現力語料數據,便可以訓練出具有高質量、高自然度表現力語音生成能力的源模型。該源模型通過對人類語音表現力特徵的深入挖掘,獲取了穩定性高,適應性強的語音情感表徵,極大地豐富了合成語音的表現力與可控性。微軟還進一步構建了基於角色和風格變換的隱式表達空間,可以靈活地將多個不同的角色和風格適應到一個新的表現力豐富的説話人模型。
目前,微軟語音合成多角色可應用在有聲書、兒童故事、新聞串講等多種場景,滿足不同的產品矩陣。
對於音頻內容產業而言,微軟此次語音合成多角色技術更新不僅令聲音風格更為多樣且具有感染力,也將進一步降低音頻內容生產成本、提高製作速度和質量。