本文轉自【中國青年網】;
從最早的明星定製語音包,到全球首個私人語音定製功能,在語音定製這個領域,百度地圖可謂是走在業界前列,這都得益於百度獨創的Meitron音色韻律遷移技術。如今,這項技術再度迎來革新,用户只需要錄製9句話就可以玩轉語音定製,極大降低了語音定製功能的使用門檻,那麼百度地圖是如何做到的呢?
2019年9月,百度地圖推出全球首個地圖語音定製產品,用户需要錄製20句、每句15個字左右的文本,經過15-20分鐘的AI訓練,最終實現定製語音包的合成輸出。而如今,依託百度獨創的時長可控端到端合成技術,升級後的地圖語音定製功能對其中的Tacotron模型進行了調整和優化,特別是在Location Sensitive Attention的機制上,使得語音合成過程中時長信息的獲取更加靈活、可控,極大提高了訓練遷移的穩定性,即便通過極少的語句也能進行穩定的合成,最終實現了從20句到9句的錄製縮減。
儘管錄製過程做了減法,但百度地圖依舊可以生成一如既往的高品質語音合成效果,這背後依賴的,就是百度獨創的音色風格細粒度編碼器。基於Global Style Tokens技術,此次升級強化了分離音色風格信息的能力,增強了音色風格抽取的一致性,即便只有極少量的語句,也能夠完成穩定的音色風格控制和遷移。
目前,百度地圖智能語音助手用户量超4億,個性化語音包每日播放次數超1億次。隨着百度地圖語音定製功能的再度升級,相信會有越來越多用户去嘗試錄製自己專屬的語音包,在導航、語音交互、智能旅遊等眾多地圖場景中,體驗個人專屬語音包的魅力。