百度Deep Voice详解分析:快速理解语音合成流程(Part I)
首发地址:https://yq.aliyun.com/articles/73809
作者介绍
Dhruv Parthasarathy:MIT
领英:https://cn.linkedin.com/in/dhruv-parthasarathy
Twitter: https://twitter.com/dhruvp
博客:https://blog.athelas.com/@dhruvp
Mediumhttps://medium.com/@dhruvp4
本文介绍一篇关于Deep Voice的论文,Deep Voice应用深度学习将文本转换语音的系统。
论文的Arxiv 链接:https : //arxiv.org/abs/1702.07825
这篇论文是由Andrew Ng的AI团队发表,遗憾的是Andrew Ng于2017Andrew NgAIAndrew Ng对中国人工智能的发展做出的贡献并祝福他。
言归正传,这篇论文介绍了一个新的深度学习系统,该系统用于将文本转换为语音。论文能够生产的例子如下(可以去链接听取录音内容)。
MacOS(文本转换成语音)系统相比,该技术的结果显得更加自然和拟人化。—— Deep Voice有机会使用人讲话的录音来训练模型,这使得它说的像人一样。此外,Deep Voice也可以访问频繁和持续时间数据。但是,除了输出的质量语音之外,论文还有几个关键的方法在语音领域中脱颖而出:
1. Deep Voice的全过程中了
先前TTS在不同组件使用了深度学习,但在Deep Voice。
2.
与传统管道相比,通过使用深度学习能够避免大量的特征处理,这使得深度语音更加适用于不同的问题领域。另外比传统的TTS训练周期更短,大大缩减了模型的训练时间,从之前的几周时间下降到几个小时即可完成训练。
3.
Deep Voice有效地实现了比Deep MindWaveNet快400的速度。他们特别写道:
作者专注于创建一个生产就绪系统,这需要设计的模型能实时运行推理。Deep Voice可以在几分之一秒内合成音频,并在合成速度和音频质量之间提供可调谐的WaveNet
这些创新点有没有让你兴奋?接下来一起Deep Voice之间是如何组合吧。在此之前需要了解一些有用的预备知识:
·)的演讲(从看完背景材料后就该Deep Voice剩余部分将遵循以下结构:
1. 首先,来看一下Deep Voice如何处理一个例句,并将其转化为与人声相似的语音。这被称为合成流程。
2. 然后,将合成流程分解成更小的部分,并了解每个部分的作用。
3. 之后,将介绍如何实际训练这些单独的部分以及实际的训练数据和标签。
4. Deep Learning架构。
合成流程 -
现在Deep Voice流程将具有以下架构:

为了了解这些内容是什么,以及它们如何组合在一起,我们逐步了解这个具体过程。例子短语:
it is early spring
1语素
语言是特殊的,例如英语,因为它们不是音形状=。例如,下面所有的词都“ough”
2. through(如too)
3. cough(如offer)
4. rough(如suffer)
可以看到,即使它们具有相同的拼写,但发音却完全不一样TTSthough”rough”需要使用略微不同的表达方式来展示有关发音的更多信息,这正是音素所在的原因。
人发出的声音是由不同的音素单位组成,将它们结合在一起后就可以重新创建几乎所有单词的发音。以下是分为音素
CMU的音素字典)的几个例子:
- White Room- [W,AY1,T,.,R,UW1,M,.]
- Crossroads - [K,R,AO1,S,R,OW2,D,Z,.]
1,2,此外句号表示发音中的停顿。所以,Deep Voice的第一步用一个简单的音素字典将每一句话简单的转换成它的音位的表示。
我们的句子
对于第一步而言Deep Voice
- - “It was early spring”
- - [IH1T1Z ...1L0....]
21时间
有了音素后,需要估计的就是说话时应该保持这些音素的时间长短问题,另外音素应该是根据其上下文决定其持续长或“AH N”
- Unforgettable
“AH N”的时间比第二种情况更长,我们可以训练系统来做到这一点。
另外我们将会使用每个音素,并预测句子应该持有多长时间(秒)。
以下是我们这个例子中变成以下形式:
- - [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
- - [IH1((0.1s),T(0.05s),.(0.01s),...]
2

之后还要预测每个音素的音调和语调,使其尽可能地听起来像人声。这在许多方面对于像汉语这样的语言尤其重要,其中相同的声音可以基于音调和口音具有着完全不同的含义(口音),大家都在生活中都遇到过口音闹出的笑话吧。预测每个音素的基频有助于做到这一点。频率告诉系统音素的准确发音及音调等。另外,一些音素根本不是有声音的,这意味着虽然它们被发音,但声带没有的任何振动,这类似于英语中的清辅音和浊辅音。本文的基频预测也将考虑到这一点,并预测什么时候是否应该发出声音。
以下是例句将变成以下形式:
- - [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
- - [IH1((140hz),T(142hz),.(]
3
创建语音的最后一步是将音素、其持续时间和频率合在一起以输出声音。Deep VoiceDeepMindWaveNet(需翻墙,见附件)的版本做到这点。强烈建议阅读原始博客(需翻墙,见附件)
WaveNet生成所有类型的声音,包括不同口音、情绪、WaveNet
在论文中,该技术团队通过优化程序的执行能力(尤其是高频输入)WaveNet几分之一秒Deep Voice
Deep Voice几分之一秒在WaveNet
Deep Voice管道最后的输入和输出!
- - [IH1(140hz,0.5s),T(142hz,0.1s),.(
- - 听录音。

3Deep Voice
1. “It was early spring”
- [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
2.
- [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.] -> [IH1(140hz,0.5s),T(142hz,0.1s),.(
3.本
- [IH1(140hz,0.5s),T(142hz,0.1s),.(->
但是,如何实际训练Deep VoiceDeep Voice
在下篇博客中,我们将Deep Voice如何训练的和神经网络背后更直观的表示,有兴趣可以阅读。
pdf、需翻墙文档的pdf
Deep Voice explained: Part 1 — the Inference PipelineDhruv Parthasarathy
原文
最后更新:2017-07-12 22:05:59