閱讀962 返回首頁    go 阿裏雲 go 技術社區[雲棲]


Deep Voice詳解分析:快速理解百度的語音合成流程

https://yq.aliyun.com/cloud

作者介紹

9963869738ba28feb70999a2327bb4d010a67bd9

Dhruv ParthasarathyMIT

領英:https://cn.linkedin.com/in/dhruv-parthasarathy

Twitter: https://twitter.com/dhruvp

博客:https://blog.athelas.com/@dhruvp

Mediumhttps://medium.com/@dhruvp4

本文Deep VoiceDeep Voice

730a2bd826d06238a2cdd0b9f9532b995a461fc9

論文的Arxiv 鏈接https : //arxiv.org/abs/1702.07825

Andrew NgAI遺憾的是Andrew Ng2017Andrew NgAIAndrew Ng對中國人工智能的發展做出的貢獻並祝福他。

言歸正傳,百度發表的這篇論文(可以去鏈接聽取錄音內容)

 c43294be6983191957698c94c9f90bd9685a8604

MacOS(文本轉換成語音)顯得擬人化—— Deep Voice使用模型Deep Voice輸出語音論文
1. Deep Voice的全過程中

TTS,但在Deep Voice

2.

TTS

3. 

Deep VoiceDeep MindWaveNet400

Deep Voice分之一WaveNet

  這些創新點有沒有讓你興奮?接下來一起Deep Voice在此之前需要了解
·)的演講(從

Deep Voice剩餘

1. Deep Voice與人聲相似的語音合成流程

2. 合成流程

3. 之後,

4. Deep Learning架構

合成流程 - 
  現在Deep Voice流程

862845ac0b199489133ea454d25112b1b570887c

為了具體過程

it is early spring

1語素
=“ough”

1. thoughtgoo

2. throughtoo

3. coughoffer 

4. roughsuffer

卻完全不一樣TTSthoughrough展示

人發出是由不同的音素組成
CMU的音素字典)的幾個例子:

  • White Room- [W1T.R1M.]
  • Crossroads - [K1S2D.]

1,2停頓Deep Voice
我們的句子
Deep Voice

  •  - “It was early spring
  •  - [IH1T1Z ...1L0....]

21時間
另外決定其“AH N”

  • Unforgettable

“AH N”


變成以下形式

  •  - [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
  •  - [IH1(0.1s),T(0.05s),.(0.01s),...]

2 

af65536f278f2cb6d8dc05435a3ef53ba8d16615

漢語(口音),大家都在生活中都遇到過口音鬧出的笑話吧

變成以下形式

  •  - [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]
  •  - [IH1(140hz),T(142hz),.(]

3

188791f901771eda750422acba85f6ee67f18544

Deep VoiceDeepMindWaveNet的版本做到這點。強烈建議閱讀原始博客文章,了解

fdf364f254ddee92d0d800dc2ae3ef2818d53c21

       WaveNet生成WaveNet
該論文程序的執行能力WaveNet幾分之一秒Deep Voice
      Deep Voice幾分之一秒WaveNet

Deep Voice

  •  - [IH1(140hz,0.5s),T(142hz,0.1s),.(
  •  - 聽錄音

a8c9105def314ea6596ea29416dd89da8ca10e40

3Deep Voice
1. It was early spring

  • [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.]

2.

  • [IH1,T,.,W,Z.,ER1,L,IY0,.,S,P,R,IH1,NG,.] - > [IH1(140hz,0.5s),T(142hz,0.1s),.(

3.

  • [IH1(140hz,0.5s),T(142hz,0.1s),.(- >

Deep VoiceDeep Voice 

Deep Voice

pdf

@

Baidu Deep Voice explained: Part 1 — the Inference PipelineDhruv Parthasarathy

原文

 

最後更新:2017-04-18 02:00:44

  上一篇:go 自學編程的 6 個技巧總結
  下一篇:go springBoot入門>>第一章>>springBoot第一個程序