閱讀217 返回首頁    go 阿裏雲 go 技術社區[雲棲]


語音識別真的比肩人類了?聽聽阿裏iDST初敏怎麼說

編者按:由中國人工智能學會、阿裏巴巴以及螞蟻金服聯合主辦的第三屆中國人工智能大會(CCAI 2017)將於7月22-23日正式召開,大會期間阿裏雲iDST智能交互總監初敏將在“語言智能與應用”論壇上分享語音交互技術的趨勢,在此之前,初敏接受了雲棲社區的專訪。

圍繞語音交互的入口之爭正愈演愈烈,siri、echo這些產品風靡全球的同時,國內外科技巨頭、創業團隊也在暗流湧動,各種智能音箱以及語音解決方案層出不窮。

毫無疑問,語音交互已經成為人工智能領域最成熟也是落地最快的技術。尤其是深度學習的起勢,讓語音識別、語音合成以及自然語言處理的發展速度提升到了一個新的高度。

於是乎,各種美化宣傳撲麵而來!

“XXX產品識別準確率高達99%,識別準確率比肩人類!”

然而,事實並非如此。市麵上已有的語音交互產品或多或少都存在一些通病:在特定領域效果不錯,但超出指定範圍就差強人意了,這樣的問題讓用戶整體體驗大打折扣…

語音識別真的比肩人類了嗎?各種算法之間該如何選擇?如何提升語音交互的用戶體驗?帶著這些問題,雲棲社區采訪了阿裏雲iDST智能交互總監初敏,聽聽她是怎麼說的。

51c6931ad8cb4450f0ce10c663b949383825c344

(注: iDST語音識別團隊曾在2016年以0.67%的準確率優勢擊敗了世界速記大賽亞軍蔣毅,據了解,iDST團隊使用了BLSTM算法,這種算法對單位時間內的計算量要求很高,為此他們做了很多針對性的優化工作,才能讓這個算法提供實時服務,並第一次在工業界進行了大規模部署。)

以下內容整理自采訪錄音:

雲棲社區:從國內外的趨勢來看,語音交互技術的應用越來越多,您認為推動語音技術普及的主要原因是什麼?

初敏:語音有兩個大的方向在用,第一個把語音當成數據,例如在講座、法院,或者是客服這些場景中,之前有的會錄音,有的不錄音,講完就過去了,而現在這些語音都會記錄下來,而且還會識別成文字,這實際上是一個數據積累的過程,我們可以對這些文本化的數據進行各種分析、挖掘和加工等等。

另外一個就是大家更關注的語音交互,語音交互之所以越來越被重視,我覺得是因為互聯網、智能硬件的普及。未來智能電視、智能音箱,甚至到以後的日常設備,都可以變成一個互聯網的入口,語音就是最簡單的,最直接的交互方式,是通用的輸入模式。

當然現有的很多語音產品還沒有那麼成功,我認為雖然現在產品比較多,但是真正好用的,讓人經常想用的卻不多。

雲棲社區:就像您提到的現在語音識別產品用起來其還會有各種各樣的問題,要達到真正完全可用的狀態我們還需要克服哪些難題?

初敏:我覺得脫離了應用場景講識別準確率、講產品根本就是不靠譜的,大家談到的百分之多少的識別準確率理論上不存在,任何一個準確率都是在特定場景下測出來的,不同的場景測出來不一樣,做一套模型在所有場景上都達到非常高的準確率,是不太現實的。

以雲棲大會為例,雲棲大會的Talk,語音識別準確率基本上能做到95%以上,但如果突然邀請一個特殊領域的講演者,比如醫療領域,可能就很難達到同樣好的效果,因為現有模型在醫療領域的知識積累不夠。所以,要把語音技術在各種領域普及開來,能快速針對不同場景進行模型調優和定製變得非常重要,這也是我們下麵主要推進的一個方向。

雲棲社區:阿裏在語音交互上重點做了哪些事?

初敏:這兩年來我們其實做了很多工作。

一方麵是在算法方麵的嚐試,語音這兩年進步的比較快實際上就是深度學習的成功應用,我們嚐試了各種深度學習模型,如DNN、CNN、BLSTM(雙向長短時記憶神經網絡),特別是在業界最先大規模上線了基於BLSTM的係統。同時,我們也會嚐試各種新算法。需要提到的是有些算法比較複雜,實驗效果好,但是上線就有些難度,所以我們需要進行大量的嚐試。另外,現在這些模型的訓練是複雜度挺高的,訓練的時間一般會很長,特別是當你的數據特別多的時候。 模型訓練的很大一部分任務要由GPU處理,在多台機器上的多塊GPU卡上並行訓練,才能提升模型優化的效率,因此我們也需要進行一些這種底層基礎設施的建設。

另一方麵,我們也在在建模單元上做一些嚐試,傳統的做法是對狀態建模(通常把一個音素切成三個狀態),現在我們成功的使用音素作為建模單元,在準確率保持的前提下,解碼效率提升高三到五倍。更大的建模單元也在嚐試中。

除了語音識別,我們在語音合成、對話管理,問答等方麵也做了很多工作,還包括在不同端上的信號處理,例如麥克風陣列等等都是要去實踐的。這樣才能完成語音交互的完整過程。

雲棲社區:在算法的選擇上是怎麼考量的?

初敏:算法實際上有很多,DNN是全連接的,CNN是有卷積的,然後RNN基本上是序列的,我們實驗最成功的是雙向的BLSTM,而現在還是有些其他的選擇,包括優化準則方麵的變化。最終在線上係統采用什麼算法,需要綜合考慮,既要看效果,同時還要考慮到計算效率,部署成本等因素。

雲棲社區:去年雙十一阿裏ET語音交互係統有亮相,它還有哪些提升空間?

初敏:ET語音交互係統確實還有改善的空間,我們平常準確率能做到95%、96%的水平,但當時主持人講的語速太快,準確率也就不盡如人意了。此外,跟主持人交互的自由度方麵,也還有很多可以做的事情。

雲棲社區:團隊做了哪些改善方案?

初敏:要在更多的場景用好就必須要有大量的數據。因為場景的磨合都是和數據有關,數據是什麼場景來的,它就可以在這個場景下取得好的效果。之前我們在客服領域的數據特別多,然後還有一些就手機端的,比如說手淘,但是視頻類的就會差一些。因此,我們就有針對性的增加數據,同時增加各種可能的背景噪聲,在專門優化後,視頻裏的語音的識別效果就大幅提升了。因此,快速的模型定製對語音技術的廣泛應用非常重要。

我們現在花了很多時間研發係統的定製能力,這樣用戶在係統上提交數據就可以通過我們的自動流程來定製他們的模型,這個模型在他們需要的場景下可以取得比通用模型更好的效果。我們現在很多的工作是從這個角度來看。我認為將來這方麵是誰的能力最強,誰就能真正在市場上快速把它用起來。

目前市麵上,基本上還沒有哪個團隊在提供快速定製化服務,我們是非常領先的。

雲棲社區:下個月舉行的CCAI大會上開設了“語言智能與應用”論壇,針對這一方向,您認為現在學術界和產業界還存在哪些痛點?

初敏:就像你剛才問到的,語音識別宣傳得很好,但很多時候用起來還沒有預期的那麼好,主要是因為技術到產品的落地之間還有很多工作沒有做好、做細致。

語音識別不是萬能的,隨便一接就可以的用的很順暢的。

技術使用起來往往需要一個迭代的過程的,需要先上線,然後在場景裏收集數據去評估,優化模型,改善用戶體驗。經過幾輪迭代,才可以發揮最佳效果。其他AI技術也是相似的。今天很多AI技術的用戶很容易把技術的能力理想化,感覺一引入,就應該立竿見影的看到效果。看到實際效果不盡人意時,就會感覺有很大的落差,失望和放棄。所以,我想強調的是,一方麵智能語音技術已經達到廣發應用的水平,同時在真正落地的時候,要充分認識到可能遇到的困難,有持久戰的思想準備。

雲棲社區:下個月您會在CCAI語音交互分論壇上分享,作為演講嘉賓您希望能給開發者帶來什麼樣的幫助?

初敏:語音交互技術在未來三五年內會大規模應用,這是大家都看到的趨勢,但是換句話說,大家都希望產品在目標場景中取得好的效果,但現實很殘酷,並不是每個人都是算法或者人工智能領域的資深專家,需要一個不斷學習和迭代的過程。AI技術的應用是一個係統工程,我們要有足夠的耐心去打通產品和體驗的優化鏈路,在應用中不斷提升效果。

最後更新:2017-06-27 10:31:46

  上一篇:go  41位全球頂尖AI專家共論人工智能創新實踐,CCAI 2017全日程公布!
  下一篇:go  photoalbum 0.4.0 發布,靜態 HTML 相冊生成工具