阅读403 返回首页    go 搜狗


搜狗研究员:基于LSTM-RNN的语音声学建模技术

分享主题

Acoustic Modeling Based on LSTM-RNN in ASR

基于LSTM-RNN的语音声学建模技术

分享内容

LSTM-RNN可以对长时序列信息进行建模,广泛应用于语音识别声学模型建模中。此次主要介绍近期LSTM的一些研究进展包括LC-BLSTM,2D-LSTM等。其中LC-BLSTM采用了双向LSTM结构,并在训练和解码时加入了数帧的未来信息来控制延时,解决了普通双向LSTM无法用于实时语音识别的问题;而2D-LSTM在时间和频域两个维度上进行循环,同时保存时间轴与频域轴的序列信息,Google和微软都在大规模语音识别任务上验证了这类2D-LSTM结构的有效性。

以下相关论文可在观看分享会前先预读:

《Improving Latency-Controlled BLSTM Acoustic Models for Online SpeechRecognition》

论文地址:https://t.cn/R0015sz

《Modeling Time-Frequency Patterns with LSTMvs. Convolutional Architectures for LVCSR Tasks》

论文地址:https://t.cn/R0011cU

《LSTM Time and Frequency Recurrence for Automatic Speech Recognition》

论文地址:https://t.cn/R0O5cJn

《Exploring Multidimensional LSTMS for Large Vocabulary ASR》

论文地址:https://t.cn/R00BxQI

《Reducing the Computational Complexity of Two-Dimensional LSTMs》

论文地址:https://t.cn/R00d0xt

分享人简介

张弼弘,2017年4月毕业于西北工业大学并获得硕士学位。研究方向是语音识别声学建模,深度学习,机器学习。目前就职于搜狗。

分享时间

北京时间10月11日 20:00

参与方式

扫描海报二维码添加社长微信,备注「搜狗

如果你觉得活动不错,欢迎点赞并转发本文~

最后更新:2017-10-10 07:34:04

  上一篇:go 输入法专利大战:搜狗压力大,百度套路深,市场变化快
  下一篇:go 搜狗研究员讲解基于深度学习的语音分离