柯南變聲器成真!百度 AI「複製聲音」技術,1.5 小時訓練數據就可複製你的聲音

柯南變聲器成真!百度 AI「複製聲音」技術,1.5 小時訓練數據就可複製你的聲音

▲百度新開發的語音生成系統不僅可以把說話聲音從固定的一種增加到了上千種,得以模仿數千個不同說話者的聲音,而且每個說話者只需要不到一個半小時的訓練數據。(圖/翻攝自雷鋒網,下同)

【原文:《百度新論文帶來「聲音克隆」,一個半小時的訓練數據就可以複製你的聲音》,作者:楊曉凡,智慧機器人網編輯整理】

文、圖/雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:日前百度發佈了一篇新論文介紹了自己在語音生成方面的最近進展。之前的 Deep Voice 系統已經可以生成高品質的語音,而現在,百度新開發的語音生成系統不僅可以把說話聲音從固定的一種增加到了上千種,得以模仿數千個不同說話者的聲音,而且每個說話者只需要不到一個半小時的訓練資料。 

這種驚人表現背後的技術理念就是從不同說話者中獨立學習共通的和差異性的資訊。而且在此基礎上,百度的研究人員們打算更進一步,嘗試只從幾秒長度的短句中學習說話者的聲音特點。通常我們把這類問題稱為「語音複製」。在人際互動介面的個性化訂制場景中,研究者們預期語音複製很可能會有重要作用。

為了解決語音複製問題,在這項研究中百度的研究人員們把注意力主要放在了兩種基礎方法上:講話人適配(speaker adaptation)和講話人編碼(speaker encoding),具體細節可參考上圖。兩種方法都可以用在帶有講話人嵌入(speaker embeddings,https://arxiv.org/pdf/1710.07654.pdf  )的多講話人語音生成模型中,同時還不降低生成的語音的品質。在生成語音的自然性和相比原講話人的相似性方面,兩種方法也都只需要很少的複製樣本就可以展現良好的表現。複製生成的樣本可以參見 https://audiodemos.github.io./  。 

講話人適配方法是使用數個複製樣本,通過基於反向傳播的優化方法對多講話人語音生成模型做精細調節(fine-tune)。適配方法可以作用於整個模型,或者只作用於低維度的講話人嵌入;後者表徵每個講話人所需的參數數量要少得多,儘管需要更長的複製時間,生成的語音的品質也要稍差一些。 

講話人編碼方法中需要訓練一個單獨的模型,用它直接從要複製的語音樣本中推斷出新的講話人嵌入,然後再把這個講話人嵌入用在多講話人語音生成模型中。這個講話人編碼模型中帶有時域和頻域的處理模組,可以從每個音訊樣本中提取得到關於講話人身份的資訊,然後用注意力模組把這些資訊以最優方式結合起來。講話人編碼方法的好處包括複製速度快(只需要幾秒時間)、表徵每個講話人需要的參數數目少,使得這種方法更適用于在資源有限的環境中使用。

除了在研究中準確估測講話人嵌入外,百度的研究人員們還發現講話人編碼器可以學會有意義地把不同的講話人映射到嵌入空間中。比如,來自不同地域、性別、口音的講話人可以被分別聚類。通過在學到的隱含空間中進行操作,就可以把某個說話者的性別或者口音轉換成圖中的樣子。根據研究員們的測試結果表明,對於為新的講話人生成語音以及模仿講話人的聲音特點,他們所提的方法非常有效。 

AAAI 主席 Subbarao Kambhampati 也饒有興趣地轉發了百度介紹這項成果的技術博客,希望這個技術抓緊實用起來,只要設置好了自己的聲音,哄小孩睡覺的時候就再也不用花時間講睡前故事了,有聲讀書器就可以用爸爸媽媽的聲音講故事。(不過雷鋒網 AI 科技評論編輯也擔心這大概不利於培養親子感情吧……)

論文地址:https://arxiv.org/pdf/1802.06006.pdf

via Baidu Research,雷鋒網 AI 科技評論編譯

【原文:《百度新論文帶來「聲音克隆」,一個半小時的訓練數據就可以複製你的聲音》,作者:楊曉凡,智慧機器人網編輯整理】

留言

延伸閱讀