245 阿裏雲技術社區[雲棲]

為提升在線語音識別效率，他創造了兩種升級版算法模型

近日，阿裏算法專家坤承攜《使用改進版本的LATENCY-CONTROLLED BLSTM 算法模型提升在線語音識別效率》（IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION）參與ICASSP2017大會。

論文作者坤承與參會者交流

論文研究的出發點在於，為了能夠取得更好的語音識別準確率，在聲學模型建模中使用了Latency-controlled BLSTM 模型。

詳見95188：BLSTM-DNN hybrid語音識別聲學模型的第一個工業應用
https://yq.aliyun.com/articles/2308?spm=5176.100240.searchblog.7.zWq29M

與標準的BLSTM使用整句語音進行訓練和解碼不同，Latency Control BLSTM使用類似truncated BPTT的更新方式，並在cell中間狀態處理和數據使用上有著自己的特點，如下圖所示：

訓練時每次使用一小段數據進行更新，數據由中心chunk和右向附加chunk構成，其中右向附加chunk隻用於cell中間狀態的計算，誤差隻在中心chunk上進行傳播。時間軸上正向移動的網絡，前一個數據段在中心chunk結束時的cell中間狀態被用於下一個數據段的初始狀態，時間軸上反向移動的網絡，每一個數據段開始時都將cell中間狀態置為0。該方法可以很大程度上加快網絡的收斂速度，並有助於得到更好的性能。解碼階段的數據處理與訓練時基本相同，不同之處在於中心chunk和右向附加chunk的維度可以根據需求進行調節，並不必須與訓練采用相同配置。LC-BLSTM的優點在於能夠在可接受的解碼延遲下保持BLSTM聲學模型的識別準確率，從而使得BLSTM可以被用於在線語音識別服務。

LC-BLSTM的上述優點是以增加計算量為代價的，為了取得更好的識別準確率，在解碼時通常需要比較長的右向附加chunk，這會增加額外的計算資源消耗，提高計算成本。如下圖所示，右向附加chunk也是使用BLSTM進行計算，在Nc=30,Nr=30的情況下，計算量將是傳統BLSTM的兩倍。

本論文的主要貢獻在於提出了兩種改進的LC-BLSTM模型，在基本保持識別準確率的同時，能夠降低解碼時的計算量。這樣可以降低計算成本，一台服務器可以支持的並發數將會是原來的1.5到2倍。

我們提出的第一種改進方法如下圖所示，主要的改進在於右向chunk的計算。

首先對於時間軸上正向移動的LSTM，我們去掉了右向chunk部分的計算。而對於時間軸上反向移動的LSTM，右向chunk部分的計算主要是為中心chunk提供cell的初始狀態，我們簡化了這部分的計算，使用正向全連接來代替LSTM，將f()的輸出取平均後作為中心chunk的初始狀態。以上改進大大降低了模型的計算量，switchboard數據集上的實驗結果如下表所示，在基本保持識別準確率的同時，可以使解碼速度提升40%以上。

我們提出的第二種改進方法如下圖所示，首先對於時間軸上正向移動的LSTM，我們同樣去掉了右向chunk部分的計算。

另外我們發現對於BLSTM模型，時間軸上反向傳播的LSTM不如時間軸上正向傳播的LSTM重要，因此我們使用簡單RNN模型來代替時間軸上反向傳播的LSTM，簡單RNN的模型計算量比LSTM小得多，因此如此改進以後模型的計算速度也會大大加快，switchboard上的實驗結果表明，在輕微損失識別率的情況下，可以使解碼速度提升60%以上。

原文鏈接

最後更新：2017-06-20 17:02:37

為提升在線語音識別效率，他創造了兩種升級版算法模型

上一篇：看戴誌康和王學集兩個開發者的公司被收購後的走向

下一篇： Redis 數據過期策略

相關內容

熱門內容

最新內容

為提升在線語音識別效率，他創造了兩種升級版算法模型

上一篇： 看戴誌康和王學集兩個開發者的公司被收購後的走向

下一篇： Redis 數據過期策略

相關內容

熱門內容

最新內容

上一篇：看戴誌康和王學集兩個開發者的公司被收購後的走向