INTERSPEECH 2017係列 | 語音合成技術
編者:今年的INTERSPEECH於8月20日至24日在瑞典的斯德哥爾摩順利召開,眾多的高校研究機構和著名的公司紛紛在本次會議上介紹了各自最新的技術、係統和相關產品,而阿裏巴巴集團作為鑽石讚助商也派出了強大的陣容前往現場。從10月25日開始,阿裏iDST語音團隊和雲棲社區將共同打造一係列語音技術分享會,旨在為大家分享INTERSPEECH2017會議上語音技術各個方麵的進展。本期分享的主題是語音合成技術,以下是本次分享的主要內容
- 語音合成技術簡介
1.1 什麼是語音合成?
語音合成技術是將任意文本轉換成語音的技術。是人與計算機語音交互必不可少的模塊。如果說語音識別技術是讓計算機學會“聽”人的話,將輸入的語音信號轉換成文字,那麼語音合成技術就是讓計算機程序把我們輸入的文字“說”出來,將任意輸入的文本轉換成語音輸出。
1.2 語音合成的應用場景和研究範圍
語音合成技術是人與計算機語音交互中必不可少的模塊。從地圖導航(例如高德地圖高曉鬆語音導航),語音助手(Apple Siri, Google Assistant,微軟 Cortana, Nuance Nina), 小說、新聞朗讀(書旗、百度小說), 智能音箱(Amazon Alexa, 天貓精靈, Google Home,Apple Pod Home 等 ),語音實時翻譯,到各種大大小小的客服,唿叫中心,甚至機場廣播,地鐵公交車報站都少不了語音合成技術的身影。
而且不僅僅是文字轉語音,語音合成技術研究範圍還包括且不限於:說話人轉換(看過007麼), 語音頻帶拓展, 歌唱語音合成(例如:日本很火的初音未來),耳語語音合成(whisper), 方言合成(四川話,粵語, 甚至古代漢語發音),動物叫聲合成,等等等等。
1.3 一個典型的語音合成係統流程圖
如下圖所示,一個典型的語音合成係統主要包括前端和後端兩個部分。前端部分主要是對輸入文本的分析,從輸入的文本提取後端建模需要的信息。例如:分詞(判斷句子中的單詞邊界),詞性標注(名詞,動詞,形容詞等),韻律結構預測(是否韻律短語邊界),多音字消岐等等。後端的部分讀入前端文本分析結果,並且對語音部分結合文本信息進行建模。在合成過程中,後端會利用輸入的文本信息和訓練好的聲學模型,生成出語音信號,進行輸出。
1.4 語音產生的過程
一個人發聲的過程可以看成肺部氣流通過人的聲帶,並經過口腔形狀調製,最後從嘴唇發出的過程。當人發輕聲時,肺部氣流通過聲帶時,聲帶不會振動,因此我們可以將通過的氣流用白噪聲信號來表示。相對的,當人發元音或者濁輔音時,當氣流通過聲帶時,聲帶會有節奏地振動,這時,我們將通過的氣流用衝激串表示。同時,我們把聲帶振動的頻率叫做基頻(f0)。人的音色和具體發什麼音是和發音時的口腔形狀相關。因此我們可以將人發生的過程簡單的看成一個激勵信號(氣流)通過濾波器(口腔形狀)調製,最後通過嘴唇發射出去的過程。
1.5 三種現階段主要的語音合成係統
現階段的語音合成係統,根據所采用的方法和框架不同,主要可以分為三種: A. 參數語音合成係統。B. 拚接語音合成係統。C. 基於波形的統計合成係統(WaveNet) 。其中A, B 是現階段各大公司線上主流的合成係統,C WaveNet 的方法還在研究階段,是現階段研究的熱門。
A. 參數語音合成係統的特點是,在語音分析階段,需要根據語音生成的特點,將語音波形(speech waves) 通過聲碼器轉換成頻譜,基頻,時長等語音或者韻律參數。在建模階段對語音參數進行建模。並且在語音合成階段,通過聲碼器從預測出來的語音參數還原出時域語音信號。參數語音合成係統的優勢在於模型大小較小,模型參數調整方便(說話人轉換,升降掉),而且合成語音比較穩定。缺點在於合成語音音質由於經過參數化,所以和原始錄音相比有一定的損失。
B. 拚接語音合成係統的特點是,不會對原始錄音進行參數化,而會將原始錄音剪切成一個一個基本單元存儲下來。在合成過程中,通過一些算法或者模型計算每個單元的目標代價和連接代價,最後通過Viterbi算法並且通過PSOLA(Pitch Synchronized Overlap-Add)或者WSOLA(Waveform Similarity based Overlap-Add)等信號處理的方法“拚接”出合成語音。因此,拚接語音合成的優勢在於,音質好,不受語音單元參數化的音質損失。但是在數據庫小的情況下,由於有時挑選不到合適的語音單元,導致合成語音會有Glitch 或者韻律、發音不夠穩定。而且需要的存儲空間大。
C. WaveNet 波形統計語音合成是Deep Mind 首先提出的一種結構,主要的單元是 Dilated CNN (卷積神經網絡)。這種方法的特點是不會對語音信號進行參數化,而是用神經網絡直接在時域預測合成語音波形的每一個采樣點。優勢是音質比參數合成係統好,略差於拚接合成。但是較拚接合成係統更穩定。缺點在於,由於需要預測每一個采樣點,需要很大的運算量,合成時間慢。WaveNet 證明了語音信號可以在時域上進行預測,這一點以前沒有方法做到。現階段WaveNet是一個研究熱點。
1.6 合成語音的評價標準
聲音的好聽與難聽是一個相對主觀的概念,因此合成語音的好壞主要通過找很多測聽人員對合成語音進行打MOS(Mean Opinion Score)分,其中MOS的範圍是 1-5 分,分別代表 1: Bad, 2: Poor, 3: Fair, 4: Good, 5: Excellent 。MOS打分可以對合成語音的音質,可懂度,相似度,或者其他的分項進行評價,也可以對語音的整體自然度進行評價。
- INTERSPEECH 2017 語音合成論文介紹 下麵介紹一些INTERSPEEECH 2017 語音合成方麵的論文。本次INTERSPEECH會議WaveNet是很火的一個題目,專門有一個部分是講WaveNet的各種應用。另外,本次會議裏,各大公司也發表了介紹自己線上語音合成係統的文章,特別是蘋果的Siri, 這也是Siri第一次發表介紹係統結構的論文。
2.1 WaveNet and Novel Paradigms
這個 Section都是以WaveNet為結構來做一些事情。主要介紹一下幾篇論文。
2.1.1 PAPER Tue-O-4-1-1 — Speaker-Dependent WaveNet Vocoder
這篇文章是日本名古屋大學的文章,主要是用WaveNet來做聲碼器,不同於基本的WaveNet,這篇文章不再condition on 每一幀的 linguistic feature, 而是condition on acoustic feature(聲學參數,比如頻譜參數 ,基頻參數)。通過給定每一幀的acoustic feature,通過WaveNet, 而不是傳統的聲碼器,就能得到合成語音。實驗證明了,對於不同的說話人集合,WaveNet聲碼器都好於傳統的 MLSA (Mel-Log S)聲碼器。
但作者也提到訓練和WaveNet預測的過程非常慢,用單GPU TITAN X, 對每一個說話人訓練需要2天時間,並且合成僅僅2秒鍾的語音需要6分鍾的時間。
2.1.2 PAPER Tue-O-4-1-2 — Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension
這篇文章是中科大訊飛實驗室發表的文章,文章的目標是用WaveNet的結構,從窄帶語音信號預測出相應的寬帶語音信號。和基礎的WaveNet相比,文章將auto-regressive的生成方式換成了直接mapping 的方式,同時嚐試了用non-casual CNN 和 casual CNN作比較。結論是用non-casual CNN先隻預測高頻信號,然後再跟原始低頻信號相加生成寬帶信號能得到最好的結果。
2.1.3 PAPER Tue-O-4-1-5 — Statistical Voice Conversion with WaveNet-Based Waveform Generation
這篇文章也是名古屋大學的文章,文章用WaveNet的結構實現說話人語音轉換(Voice Conversion),結論是好於傳統的GMM說話人轉換的方法。這篇文章其實也是將WaveNet作為一個聲碼器,在合成的時候,將轉換以後的語音參數作為condition生成speech wave。下圖是基於WaveNet語音轉換的結構框圖。
2.2 公司發表的介紹自己合成係統的文章
2.2.1 Apple : Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System
這是 Siri 係統第一次發文章,主要介紹了apple最近 TTS 方麵的 deep learning 方麵的進展, TTS 的性能提升。從實驗結果來看,在各種不同的語種上,基於Mix density network (MDN)的拚接語音合成係統明顯優於之前的傳統的Siri拚接合成係統。以下是具體結果。
2.2.2 Google’s Next-Generation Real-Time Unit-Selection Synthesizer using Sequence-To-Sequence LSTM-based Autoencoders
2.2.3 Nuance : Unit selection with Hierarchical Cascaded Long Short Term Memory Bidirectional Recurrent Neural Nets
Nuance 公司也發表了介紹自己合成係統的文章。是一個基於Hierarchical LSTM 的拚接合成係統。結果證明Hierarchical LSTM結構在合成語音韻律上好於非Hierarchical LSTM。
2.2.4 Google : Tacotron: Towards End-to-End Speech Synthesis
這篇 google 的文章早前在 arxiv 上放出,和 WaveNet 相比 Tacotron 係統是以 frame 而不是每一個 sample 點為單位進行模型訓練和預測,所以速度上會更快。Tacotron 是在 Spectrogram 上建模,不像 WaveNet 是在波形上建模。所以和 WaveNet 相比, Tacotron 還是損失了frame 相位的信息。最後Tacotron 通過 Griffin-Lim 算法直接從 Spectrogram 還原出wave。 在 acoustic model 上麵, Tacotron 用了 pre-net 對每一個字的 embedding 進行了進一步的非線性編碼, 並且通過 CBHG 結構來增加模型的魯棒性。在建模過程中,作者使用了 Attention 的機製來控製每一幀的 condition。 模型也是通過 feed in 上一幀的輸出來得到當前幀的輸入。總的來說,這是一篇非常值得借鑒的文章。
2.3一些其他的論文
最後更新:2017-11-21 15:03:47