百度Deep Voice詳解分析:快速理解語音合成流程(Part I)
首發地址:https://yq.aliyun.com/articles/73809
作者介紹
Dhruv Parthasarathy:MIT
領英:https://cn.linkedin.com/in/dhruv-parthasarathy
Twitter: https://twitter.com/dhruvp
博客:https://blog.athelas.com/@dhruvp
Mediumhttps://medium.com/@dhruvp4
本文介紹一篇關於Deep Voice的論文,Deep Voice應用深度學習將文本轉換語音的係統。
論文的Arxiv 鏈接:https : //arxiv.org/abs/1702.07825
這篇論文是由Andrew Ng的AI團隊發表,遺憾的是Andrew Ng於2017Andrew NgAIAndrew Ng對中國人工智能的發展做出的貢獻並祝福他。
言歸正傳,這篇論文介紹了一個新的深度學習係統,該係統用於將文本轉換為語音。論文能夠生產的例子如下(可以去鏈接聽取錄音內容)。
MacOS(文本轉換成語音)係統相比,該技術的結果顯得更加自然和擬人化。—— Deep Voice有機會使用人講話的錄音來訓練模型,這使得它說的像人一樣。此外,Deep Voice也可以訪問頻繁和持續時間數據。但是,除了輸出的質量語音之外,論文還有幾個關鍵的方法在語音領域中脫穎而出:
1. Deep Voice的全過程中了
先前TTS在不同組件使用了深度學習,但在Deep Voice。
2.
與傳統管道相比,通過使用深度學習能夠避免大量的特征處理,這使得深度語音更加適用於不同的問題領域。另外比傳統的TTS訓練周期更短,大大縮減了模型的訓練時間,從之前的幾周時間下降到幾個小時即可完成訓練。
3.
Deep Voice有效地實現了比Deep MindWaveNet快400的速度。他們特別寫道:
作者專注於創建一個生產就緒係統,這需要設計的模型能實時運行推理。Deep Voice可以在幾分之一秒內合成音頻,並在合成速度和音頻質量之間提供可調諧的WaveNet
這些創新點有沒有讓你興奮?接下來一起Deep Voice之間是如何組合吧。在此之前需要了解一些有用的預備知識:
·)的演講(從看完背景材料後就該Deep Voice剩餘部分將遵循以下結構:
1. 首先,來看一下Deep Voice如何處理一個例句,並將其轉化為與人聲相似的語音。這被稱為合成流程。
2. 然後,將合成流程分解成更小的部分,並了解每個部分的作用。
3. 之後,將介紹如何實際訓練這些單獨的部分以及實際的訓練數據和標簽。
4. Deep Learning架構。
合成流程 -
現在Deep Voice流程將具有以下架構:

為了了解這些內容是什麼,以及它們如何組合在一起,我們逐步了解這個具體過程。例子短語:
it is early spring
1語素
語言是特殊的,例如英語,因為它們不是音形狀=。例如,下麵所有的詞都“ough”
2. through(如too)
3. cough(如offer)
4. rough(如suffer)
可以看到,即使它們具有相同的拚寫,但發音卻完全不一樣TTSthough”rough”需要使用略微不同的表達方式來展示有關發音的更多信息,這正是音素所在的原因。
人發出的聲音是由不同的音素單位組成,將它們結合在一起後就可以重新創建幾乎所有單詞的發音。以下是分為音素
CMU的音素字典)的幾個例子:
- White Room- [W,AY1,T,.,R,UW1,M,.]
- Crossroads - [K,R,AO1,S,R,OW2,D,Z,.]
1,2,此外句號表示發音中的停頓。所以,Deep Voice的第一步用一個簡單的音素字典將每一句話簡單的轉換成它的音位的表示。
我們的句子
對於第一步而言Deep Voice
- - “It was early spring”
- - [IH1T1Z ...1L0....]
21時間
有了音素後,需要估計的就是說話時應該保持這些音素的時間長短問題,另外音素應該是根據其上下文決定其持續長或“AH N”
- Unforgettable
“AH N”的時間比第二種情況更長,我們可以訓練係統來做到這一點。
另外我們將會使用每個音素,並預測句子應該持有多長時間(秒)。
以下是我們這個例子中變成以下形式:
- - [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
- - [IH1((0.1s),T(0.05s),.(0.01s),...]
2

之後還要預測每個音素的音調和語調,使其盡可能地聽起來像人聲。這在許多方麵對於像漢語這樣的語言尤其重要,其中相同的聲音可以基於音調和口音具有著完全不同的含義(口音),大家都在生活中都遇到過口音鬧出的笑話吧。預測每個音素的基頻有助於做到這一點。頻率告訴係統音素的準確發音及音調等。另外,一些音素根本不是有聲音的,這意味著雖然它們被發音,但聲帶沒有的任何振動,這類似於英語中的清輔音和濁輔音。本文的基頻預測也將考慮到這一點,並預測什麼時候是否應該發出聲音。
以下是例句將變成以下形式:
- - [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
- - [IH1((140hz),T(142hz),.(]
3
創建語音的最後一步是將音素、其持續時間和頻率合在一起以輸出聲音。Deep VoiceDeepMindWaveNet(需翻牆,見附件)的版本做到這點。強烈建議閱讀原始博客(需翻牆,見附件)
WaveNet生成所有類型的聲音,包括不同口音、情緒、WaveNet
在論文中,該技術團隊通過優化程序的執行能力(尤其是高頻輸入)WaveNet幾分之一秒Deep Voice
Deep Voice幾分之一秒在WaveNet
Deep Voice管道最後的輸入和輸出!
- - [IH1(140hz,0.5s),T(142hz,0.1s),.(
- - 聽錄音。

3Deep Voice
1. “It was early spring”
- [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
2.
- [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.] -> [IH1(140hz,0.5s),T(142hz,0.1s),.(
3.本
- [IH1(140hz,0.5s),T(142hz,0.1s),.(->
但是,如何實際訓練Deep VoiceDeep Voice
在下篇博客中,我們將Deep Voice如何訓練的和神經網絡背後更直觀的表示,有興趣可以閱讀。
pdf、需翻牆文檔的pdf
Deep Voice explained: Part 1 — the Inference PipelineDhruv Parthasarathy
原文
最後更新:2017-07-12 22:05:59