為提升在線語音識別效率,他創造了兩種升級版算法模型
近日,阿裏算法專家坤承攜《使用改進版本的LATENCY-CONTROLLED BLSTM 算法模型提升在線語音識別效率》(IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION)參與ICASSP2017大會。
論文作者坤承與參會者交流
論文研究的出發點在於,為了能夠取得更好的語音識別準確率,在聲學模型建模中使用了Latency-controlled BLSTM 模型。
詳見95188:BLSTM-DNN hybrid語音識別聲學模型的第一個工業應用
https://yq.aliyun.com/articles/2308?spm=5176.100240.searchblog.7.zWq29M
與標準的BLSTM使用整句語音進行訓練和解碼不同,Latency Control BLSTM使用類似truncated BPTT的更新方式,並在cell中間狀態處理和數據使用上有著自己的特點,如下圖所示:
訓練時每次使用一小段數據進行更新,數據由中心chunk和右向附加chunk構成,其中右向附加chunk隻用於cell中間狀態的計算,誤差隻在中心chunk上進行傳播。時間軸上正向移動的網絡,前一個數據段在中心chunk結束時的cell中間狀態被用於下一個數據段的初始狀態,時間軸上反向移動的網絡,每一個數據段開始時都將cell中間狀態置為0。該方法可以很大程度上加快網絡的收斂速度,並有助於得到更好的性能。解碼階段的數據處理與訓練時基本相同,不同之處在於中心chunk和右向附加chunk的維度可以根據需求進行調節,並不必須與訓練采用相同配置。LC-BLSTM的優點在於能夠在可接受的解碼延遲下保持BLSTM聲學模型的識別準確率,從而使得BLSTM可以被用於在線語音識別服務。
LC-BLSTM的上述優點是以增加計算量為代價的,為了取得更好的識別準確率,在解碼時通常需要比較長的右向附加chunk,這會增加額外的計算資源消耗,提高計算成本。如下圖所示,右向附加chunk也是使用BLSTM進行計算,在Nc=30,Nr=30的情況下,計算量將是傳統BLSTM的兩倍。
本論文的主要貢獻在於提出了兩種改進的LC-BLSTM模型,在基本保持識別準確率的同時,能夠降低解碼時的計算量。這樣可以降低計算成本,一台服務器可以支持的並發數將會是原來的1.5到2倍。
我們提出的第一種改進方法如下圖所示,主要的改進在於右向chunk的計算。
首先對於時間軸上正向移動的LSTM,我們去掉了右向chunk部分的計算。而對於時間軸上反向移動的LSTM,右向chunk部分的計算主要是為中心chunk提供cell的初始狀態,我們簡化了這部分的計算,使用正向全連接來代替LSTM,將f()的輸出取平均後作為中心chunk的初始狀態。以上改進大大降低了模型的計算量,switchboard數據集上的實驗結果如下表所示,在基本保持識別準確率的同時,可以使解碼速度提升40%以上。
我們提出的第二種改進方法如下圖所示,首先對於時間軸上正向移動的LSTM,我們同樣去掉了右向chunk部分的計算。
另外我們發現對於BLSTM模型,時間軸上反向傳播的LSTM不如時間軸上正向傳播的LSTM重要,因此我們使用簡單RNN模型來代替時間軸上反向傳播的LSTM,簡單RNN的模型計算量比LSTM小得多,因此如此改進以後模型的計算速度也會大大加快,switchboard上的實驗結果表明,在輕微損失識別率的情況下,可以使解碼速度提升60%以上。
最後更新:2017-06-20 17:02:37