讓米粉為之瘋狂的聲音克隆技術:深聲科技如何用90秒錄音克隆出你的聲音?

“通過克隆,把自己心愛之人的聲音永久珍藏……這可能就是科技應該有的温度吧。”

與小米的最近一次合作中,深聲科技為其提供了聲音克隆技術,應用在其最新發布的小愛同學定製聲音功能上,能讓米粉合成自己的、甚至是父母、兒女、戀人的聲音,同時還支持音色分享功能。比如,明星將自己音色分享給粉絲後,就能通過聲音實現明星和粉絲的“常相伴”。

讓米粉為之瘋狂的聲音克隆技術:深聲科技如何用90秒錄音克隆出你的聲音?

智能語音助手這個頗具想象力的AI應用,正逐漸成為智能終端的基礎功能,包括智能手機、智能家居、車載、陪伴機器人等,其普及率有了較大提升,而聲音克隆技術的應用,很可能會加速整個進程。

説到聲音克隆技術,並非深聲科技所獨有的,但與競爭對手相比,深聲科技CEO周俊明表示:“聲音克隆技術上,我們在音色還原度、發音準確率、音質清晰度等方面,具有明顯的優勢,手機語音助手是我們首個落地場景。”?

聲音克隆面臨哪些技術挑戰?

2020年1月中旬,深聲科技聲音克隆產品正式上線。在此期間,深聲團隊在眾多競爭者中成功拿下了小米方的需求標的。作為與小米小愛同學的一次深度合作,深聲科技將為之提供聲音克隆核心技術支持。

包括雙方的需求對接、內部評估,再到交付,前後用了1個多月時間。

與傳統語音合成相比,聲音克隆面臨更大的技術挑戰。首先,聲音克隆需要C端用户配合錄音,就不能對其錄音環境和設備有過分要求。

我們會建議用户選擇一個儘可能安靜的地方,使用手機完成錄音過程。?

其次,考慮用户的體驗,需要儘可能縮短錄音的時長。

這就對我們有很高的要求,傳統的語音合成需要幾十分鐘到幾個小時的語音數據,相比之下,聲音克隆的數據量少,對聲學模型的訓練有更高的要求,比如發音模糊、發錯音、音素覆蓋等一系列問題。當然,最重要的還是音色還原度的問題。

現在,用户只需配合朗讀20句話短文本,大約錄音90秒的語音數據,就能快速克隆出自己的聲音,將個人的情感表達、發音特點等信息遷移到合成聲音中,就連口音也能很好地克隆出來。

再次,在實際應用中,還要考慮海量用户發起聲音克隆請求的高併發問題。為了節約成本,提升用户體驗,就要解決模型切換、模型併發數,以及合成延遲等一系列挑戰。

海量用户對聲音克隆的頻繁調用時,模型間的切換邏輯非常重要。

最後,因為採集到的用户數據會上傳到服務器進行模型訓練,考慮到用户隱私安全的保護,團隊提供了私有化部署的方案,以確保用户數據不外泄。

是否迎來大規模商業化??

過去一段時間,百度、訊飛、搜狗等公司也曾推出聲音克隆服務,但似乎並未贏得用户市場的關注。為什麼深聲科技此次聲音克隆技術的上線,會在用户市場引起如此大的反響呢?

周俊明表示,聲音克隆大規模商業化需要具備幾個條件:

一是克隆的聲音有較高的音色還原度,跟真人聲音無差異;

二是用户使用門檻不能太高,例如錄音條件、發音標準等不能有太高要求;

三是對計算資源的消耗,需要具備個人都能用得起的基礎;

四是具備創造出真正的價值,能夠提升人們的生活品質。

從這個角度來講,深聲科技與小米的合作開始,就已經具備了將聲音克隆技術大規模商業化的能力。

在談到與普通語音合成的差異時,周俊明表示:

普通語音合成,解決的是如何將語音內容很好地傳遞出去、更容易地被接收的問題。而聲音克隆,體現了用户的社會屬性,能夠讓用户通過聲音來服務於他人。這就意味着,每個人的聲音的價值能夠得到充分體現,在包括親子互動、情感陪伴、泛娛樂在內的各種場景中具有巨大的應用價值。

讓米粉為之瘋狂的聲音克隆技術:深聲科技如何用90秒錄音克隆出你的聲音?

安全問題如何解決?

將聲音克隆引入智能語音助手,會不會引發更多語音詐騙案件的發生?

目前可能普通存在這樣的擔憂:合成技術的水平發展越高,合成語音與人聲的差異就越小,技術鑑定的難度就越大。對此,周俊明也指出,

不必過度擔心。問題在於人耳的敏感度不夠高,才會對克隆聲音沒有發覺。但應用技術手段進行區分還是毫無壓力的,克隆出來的聲音在語譜圖中跟真人的聲音有明顯區別,克隆聲音中的很多特徵信息已經丟失了。

作為技術服務的輸出方,深聲科技也十分關注如何規避這項技術的非法應用,在推出之前就考慮了到法律倫理的問題,並給出了三點應對方案:

一是將聲音克隆能力只授權給那些有控制能力的企業客户,對於C端用户來講,只有選擇音色的權限,沒有自定義克隆聲音內容的權限;

二是加強對內容安全的嚴格審核。不支持用户用隨意一段語音進行克隆,要求用户對指定文本進行錄音,從而降低聲音被利用的風險;

三是通過身份認證、結合生物識別等技術,以限制聲音克隆的使用。

關於深聲

深聲科技是一家專注於“智能語音”技術研發和業務落地的人工智能公司,於2018年在廣州天河成立。深聲科技擁有一支頂級的人工智能技術團隊,自主研發了行業領先的語音合成、聲音定製、聲音克隆等語音AI技術。

深聲的語音AI技術已在眾多場景中落地,包括語音助手、智能客服、有聲閲讀、車載語音、AI教育、動漫等。深聲提供的“文字轉語音”技術服務,支持的語言也從中文、英文,逐步擴展到了國內方言和海外語種。除了持續不斷的技術突破,深聲的語音數據製作效率也有了大幅度提升,比如三天交付客户專屬定製聲音, 兩個月支持一門新語種。

讓聲音服務好每個人的生活,深聲致力於將語音AI技術融入人們生活的點滴之中,賦予企業和用户以創新與科技力量來創造更美好的世界。?

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 2109 字。

轉載請註明: 讓米粉為之瘋狂的聲音克隆技術:深聲科技如何用90秒錄音克隆出你的聲音? - 楠木軒