阅读962 返回首页    go 阿里云 go 技术社区[云栖]


Deep Voice详解分析:快速理解百度的语音合成流程

https://yq.aliyun.com/cloud

作者介绍

9963869738ba28feb70999a2327bb4d010a67bd9

Dhruv ParthasarathyMIT

领英:https://cn.linkedin.com/in/dhruv-parthasarathy

Twitter: https://twitter.com/dhruvp

博客:https://blog.athelas.com/@dhruvp

Mediumhttps://medium.com/@dhruvp4

本文Deep VoiceDeep Voice

730a2bd826d06238a2cdd0b9f9532b995a461fc9

论文的Arxiv 链接https : //arxiv.org/abs/1702.07825

Andrew NgAI遗憾的是Andrew Ng2017Andrew NgAIAndrew Ng对中国人工智能的发展做出的贡献并祝福他。

言归正传,百度发表的这篇论文(可以去链接听取录音内容)

 c43294be6983191957698c94c9f90bd9685a8604

MacOS(文本转换成语音)显得拟人化—— Deep Voice使用模型Deep Voice输出语音论文
1. Deep Voice的全过程中

TTS,但在Deep Voice

2.

TTS

3. 

Deep VoiceDeep MindWaveNet400

Deep Voice分之一WaveNet

  这些创新点有没有让你兴奋?接下来一起Deep Voice在此之前需要了解
·)的演讲(从

Deep Voice剩余

1. Deep Voice与人声相似的语音合成流程

2. 合成流程

3. 之后,

4. Deep Learning架构

合成流程 - 
  现在Deep Voice流程

862845ac0b199489133ea454d25112b1b570887c

为了具体过程

it is early spring

1语素
=“ough”

1. thoughtgoo

2. throughtoo

3. coughoffer 

4. roughsuffer

却完全不一样TTSthoughrough展示

人发出是由不同的音素组成
CMU的音素字典)的几个例子:

  • White Room- [W1T.R1M.]
  • Crossroads - [K1S2D.]

1,2停顿Deep Voice
我们的句子
Deep Voice

  •  - “It was early spring
  •  - [IH1T1Z ...1L0....]

21时间
另外决定其“AH N”

  • Unforgettable

“AH N”


变成以下形式

  •  - [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
  •  - [IH1(0.1s),T(0.05s),.(0.01s),...]

2 

af65536f278f2cb6d8dc05435a3ef53ba8d16615

汉语(口音),大家都在生活中都遇到过口音闹出的笑话吧

变成以下形式

  •  - [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
  •  - [IH1(140hz),T(142hz),.(]

3

188791f901771eda750422acba85f6ee67f18544

Deep VoiceDeepMindWaveNet的版本做到这点。强烈建议阅读原始博客文章,了解

fdf364f254ddee92d0d800dc2ae3ef2818d53c21

       WaveNet生成WaveNet
该论文程序的执行能力WaveNet几分之一秒Deep Voice
      Deep Voice几分之一秒WaveNet

Deep Voice

  •  - [IH1(140hz,0.5s),T(142hz,0.1s),.(
  •  - 听录音

a8c9105def314ea6596ea29416dd89da8ca10e40

3Deep Voice
1. It was early spring

  • [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]

2.

  • [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.] - > [IH1(140hz,0.5s),T(142hz,0.1s),.(

3.

  • [IH1(140hz,0.5s),T(142hz,0.1s),.(- >

Deep VoiceDeep Voice 

Deep Voice

pdf

@

Baidu Deep Voice explained: Part 1 — the Inference PipelineDhruv Parthasarathy

原文

 

最后更新:2017-04-18 02:00:44

  上一篇:go 自学编程的 6 个技巧总结
  下一篇:go springBoot入门>>第一章>>springBoot第一个程序