讓米粉為之瘋狂的聲音克隆技術：深聲科技如何用90秒錄音克隆出你的聲音？

“通過克隆，把自己心愛之人的聲音永久珍藏……這可能就是科技應該有的温度吧。”

與小米的最近一次合作中，深聲科技為其提供了聲音克隆技術，應用在其最新發布的小愛同學定製聲音功能上，能讓米粉合成自己的、甚至是父母、兒女、戀人的聲音，同時還支持音色分享功能。比如，明星將自己音色分享給粉絲後，就能通過聲音實現明星和粉絲的“常相伴”。

智能語音助手這個頗具想象力的AI應用，正逐漸成為智能終端的基礎功能，包括智能手機、智能家居、車載、陪伴機器人等，其普及率有了較大提升，而聲音克隆技術的應用，很可能會加速整個進程。

説到聲音克隆技術，並非深聲科技所獨有的，但與競爭對手相比，深聲科技CEO周俊明表示：“聲音克隆技術上，我們在音色還原度、發音準確率、音質清晰度等方面，具有明顯的優勢，手機語音助手是我們首個落地場景。”?

聲音克隆面臨哪些技術挑戰？

2020年1月中旬，深聲科技聲音克隆產品正式上線。在此期間，深聲團隊在眾多競爭者中成功拿下了小米方的需求標的。作為與小米小愛同學的一次深度合作，深聲科技將為之提供聲音克隆核心技術支持。

包括雙方的需求對接、內部評估，再到交付，前後用了1個多月時間。

與傳統語音合成相比，聲音克隆面臨更大的技術挑戰。首先，聲音克隆需要C端用户配合錄音，就不能對其錄音環境和設備有過分要求。

我們會建議用户選擇一個儘可能安靜的地方，使用手機完成錄音過程。?

其次，考慮用户的體驗，需要儘可能縮短錄音的時長。

這就對我們有很高的要求，傳統的語音合成需要幾十分鐘到幾個小時的語音數據，相比之下，聲音克隆的數據量少，對聲學模型的訓練有更高的要求，比如發音模糊、發錯音、音素覆蓋等一系列問題。當然，最重要的還是音色還原度的問題。

現在，用户只需配合朗讀20句話短文本，大約錄音90秒的語音數據，就能快速克隆出自己的聲音，將個人的情感表達、發音特點等信息遷移到合成聲音中，就連口音也能很好地克隆出來。

再次，在實際應用中，還要考慮海量用户發起聲音克隆請求的高併發問題。為了節約成本，提升用户體驗，就要解決模型切換、模型併發數，以及合成延遲等一系列挑戰。

海量用户對聲音克隆的頻繁調用時，模型間的切換邏輯非常重要。

最後，因為採集到的用户數據會上傳到服務器進行模型訓練，考慮到用户隱私安全的保護，團隊提供了私有化部署的方案，以確保用户數據不外泄。

是否迎來大規模商業化？?

過去一段時間，百度、訊飛、搜狗等公司也曾推出聲音克隆服務，但似乎並未贏得用户市場的關注。為什麼深聲科技此次聲音克隆技術的上線，會在用户市場引起如此大的反響呢？

周俊明表示，聲音克隆大規模商業化需要具備幾個條件：

一是克隆的聲音有較高的音色還原度，跟真人聲音無差異；

二是用户使用門檻不能太高，例如錄音條件、發音標準等不能有太高要求；

三是對計算資源的消耗，需要具備個人都能用得起的基礎；

四是具備創造出真正的價值，能夠提升人們的生活品質。

從這個角度來講，深聲科技與小米的合作開始，就已經具備了將聲音克隆技術大規模商業化的能力。

在談到與普通語音合成的差異時，周俊明表示：

普通語音合成，解決的是如何將語音內容很好地傳遞出去、更容易地被接收的問題。而聲音克隆，體現了用户的社會屬性，能夠讓用户通過聲音來服務於他人。這就意味着，每個人的聲音的價值能夠得到充分體現，在包括親子互動、情感陪伴、泛娛樂在內的各種場景中具有巨大的應用價值。

安全問題如何解決？

將聲音克隆引入智能語音助手，會不會引發更多語音詐騙案件的發生？

目前可能普通存在這樣的擔憂：合成技術的水平發展越高，合成語音與人聲的差異就越小，技術鑑定的難度就越大。對此，周俊明也指出，

不必過度擔心。問題在於人耳的敏感度不夠高，才會對克隆聲音沒有發覺。但應用技術手段進行區分還是毫無壓力的，克隆出來的聲音在語譜圖中跟真人的聲音有明顯區別，克隆聲音中的很多特徵信息已經丟失了。

作為技術服務的輸出方，深聲科技也十分關注如何規避這項技術的非法應用，在推出之前就考慮了到法律倫理的問題，並給出了三點應對方案：

一是將聲音克隆能力只授權給那些有控制能力的企業客户，對於C端用户來講，只有選擇音色的權限，沒有自定義克隆聲音內容的權限；

二是加強對內容安全的嚴格審核。不支持用户用隨意一段語音進行克隆，要求用户對指定文本進行錄音，從而降低聲音被利用的風險；

三是通過身份認證、結合生物識別等技術，以限制聲音克隆的使用。

關於深聲

深聲科技是一家專注於“智能語音”技術研發和業務落地的人工智能公司，於2018年在廣州天河成立。深聲科技擁有一支頂級的人工智能技術團隊，自主研發了行業領先的語音合成、聲音定製、聲音克隆等語音AI技術。

深聲的語音AI技術已在眾多場景中落地，包括語音助手、智能客服、有聲閲讀、車載語音、AI教育、動漫等。深聲提供的“文字轉語音”技術服務，支持的語言也從中文、英文，逐步擴展到了國內方言和海外語種。除了持續不斷的技術突破，深聲的語音數據製作效率也有了大幅度提升，比如三天交付客户專屬定製聲音，兩個月支持一門新語種。

讓聲音服務好每個人的生活，深聲致力於將語音AI技術融入人們生活的點滴之中，賦予企業和用户以創新與科技力量來創造更美好的世界。?