738
搜狗
搜狗的AI之路,從語音開始落地
文|朱曉培
2016年,一場AlphaGo與李世石的比賽,4:1的比分,就像一場啟蒙運動,所有的互聯網科技公司,所有的風險投資,都把眼光都投向了人工智能。
人工智能(AI)的浪潮,來勢洶洶。不論是亞馬遜Echo掀起的智能音響浪潮,還是iPhoneX裏升級的Siri,不約而同的把人工智能的落地點放在了語音交互上。
在一些業內人士看來,現階段,語音技術已經趨於成熟,機器也能聽懂人說話了,這使得,語音成為最主要的人工智能交互方式。
搜狗CEO王小川認為,隨著人工智能技術的發展和應用,搜索和輸入法的未來將走向自動問答,從而形成前台的自然交互與後台的知識計算相結合的人工智能結構。
“說實話,我們團隊是趕上了這一波人工智能的紅利。”搜狗語音交互中心技術總監陳偉說,他與搜狗語音團隊似乎一直恪守著低調準則:沒有準備好不發布、沒有成果不發聲。
9月初,WMT官方公布成績:搜狗語音交互技術中心-機器翻譯團隊提交的中英和英中係統,獲得了人工評價指標的雙向第一名,並且在八項機器評價指標中獲得了七項第一,包括主要機器指標BLEU(Bilingual Evaluation Understudy)第一名。
WMT全稱Workshop on Machine Translation,是由來自歐洲和美國的高校、研究機構的研究人員聯合舉辦的業界公認的國際頂級機器翻譯比賽之一。從2006年開始到2017年,一共舉辦了12屆,本屆WMT共有20多家國際知名的機構參與展示,包括約翰霍普金斯大學、美國空軍研究實驗室、搜狗語音交互技術中心的機器翻譯團隊、中科院計算所等。
這意味著,中國的語音翻譯技術,已經邁入世界最前端的頂尖領域。而搜狗CEO王小川一直提的搜狗人工智能戰略,也從語音開始落地。
巨頭暗戰語音市場
陳偉在搜狗工作五年了,他博士期間的研究方向就是語音,偏語音識別。
但2010年以前,語音方向的工作機會很少,他實驗室的師兄師姐基本都換了方向,有做谘詢的,也有做軟件開發的。陳偉當時也沒想太多,就堅持做了下來。到了2011年,隨著蘋果發布Siri,語音生態一下子熱了起來,微軟也上線了小冰。
2012年,陳偉加入搜狗,隸屬桌麵事業部的研究部。搜狗招聘他的目的很明確,就是要在搜狗輸入法上麵上語音識別。但當時,業界也隻是認為語音是一個很好的輔助輸入的方式。會不會成為主流?還沒人知道。包括陳偉自己,心裏也是有疑問的。
雖然屬於桌麵事業部,但搜狗當時的第一個想法還是要把語音往手機上放。雖然,ios當時還不讓用輸入法,但安卓上已經開始爆發了。陳偉說,他們能夠感覺到移動互聯網的時代已經來了。
“還好一直堅持下來了,準確率也是一點點磕下來的”。陳偉說。搜狗輸入法一上線,出錯率到了30%-40%,但能夠感受到用戶的需求,流量一直在持續上漲。到現在,出錯率已經降低到了10%。在安靜的、沒有口音的情況下,準確率可以穩定到97%。
但市場上的對手同樣強大。穀歌、微軟、Facebook、科大訊飛等國內外科技巨頭都在布局語音市場。
據CNBC掌握的消息,亞馬遜的雲計算業務部門一直在研發一種針對開發者的翻譯服務,開發者可以使用這一服務來打造多種語言版本的網站和應用。一位知情人士透露,如今亞馬遜準備通過自己的AWS來進一步推廣機器翻譯服務。
而幾個月之前,穀歌翻譯(Google Translate)也從基於短語的係統轉向神經機器翻譯係統。如今,穀歌也將神經機器翻譯係統納入針對開發者的服務之中。
Facebook近日也宣布,將在加拿大的蒙特利爾設立新的、也是其第四個AI研究實驗室。該實驗室將由Joelle Pineau負責,而Pineau是對話係統和增強學習領域的專家,也是麥吉爾大學的一名教授。
巨頭的加入,也從側麵正麵了語音是一個大市場。
而中國工業和信息化部電子科技信息情報研究所數據顯示,自2012年以來,全球智能語音產業規模呈持續快速增長的趨勢。2013年,全球智能語音產業規模整體達33.7億美元,同比增長38.1%;2014年較2013年同比增長41.0%。預計到2017年,全球智能語音規模將達112.4億美元。
機器翻譯帶來的機會
2012年開始,搜狗成立了一個語音識別團隊,圍繞語音識別與輸入法的結合做研究。2014年後,機器翻譯由SMT(統計機器翻譯)向NMT(神經機器翻譯)遷移。
有人這樣解釋兩種機器翻譯之間的區別:SMT技術是模擬人類的翻譯行為,比如先查單詞,考慮短語翻譯,句子結構調序等,最終寫出好的譯文。而NMT技術是模擬人們翻譯外文資料時的大腦工作過程,事實上我們不清楚大腦的具體工作過程,因此NMT也像黑箱子,可解釋性差。但從翻譯結果看,SMT要遠超出SMT。
成立後,搜狗語音交互中心先圍繞著基於神經網絡的機器翻譯技術做了半年,感覺技術打磨得很好了,就開始把技術應用在輸入法上。2016年11月的世界互聯網大會上,搜狗第一次把已有的語音技術和新做的機器翻譯技術結合在一起,做了機器同傳的技術,現場試用。到現在,搜狗機器同傳在各種大會的演示,已經接近百場。
“我們機器翻譯技術已經在搜狗輸入法的語音翻譯搜狗同傳上得到了應用,流量已經基本200多萬了。”陳偉說。
但困難一直都在,因為技術一直在更新。
“我們既然要做這件事情,就一定往前麵走,為了領先對手,這個狀態是很痛苦的,你要不停的從數據的角度考慮,技術的迭代來考慮。”陳偉認為,算法是很難形成壁壘的,隻能保證現在上線的是業界領先的,但是並不能保證一直領先。搜狗的優勢在於擁有大量的用戶數據,可以快速把數據壁壘做起來。
統計顯示,搜狗輸入法單語音輸入日頻次已達3億次,同比增長80%以上。通過大規模的優質語音訓練數據和深度學習,搜狗可以將這種語音識別的技術優勢轉化到了更多的適用場景中。
機器翻譯技術負責人王宇光認為,NMT(神經機器翻譯)給了搜狗機會。如果是以前的SMT(統計機器翻譯)時代,讓一個成立兩年的團隊去追趕一個積累了五六年的團隊,肯定是追不上的。但是,搜狗恰好趕上2012年之後,所有的技術框架都推倒了,從頭開始做,大家在同一起跑線上跑,比得是誰跑得快跑得慢了。而作為國內是最大的輸入法,搜狗的一個優勢是數據量比對手大很多。
隻讓機器以句子為單位分析,還是不夠
機器學習在翻譯領域確實很有用,但是它也有一些弱點。他們並不是在翻譯句子或者文章,而是在翻譯詞語。即便現在翻譯軟件越來越智能,但他們逐字逐句翻譯的傾向依然存在。
學術論文《神經機器翻譯的六大挑戰(Six Challenges for Neural Machine Translation)》,總結了神經機器翻譯(NMT)六大挑戰:領域誤匹配、訓練數據的總量、生僻詞、長句子、詞對齊和束搜索(beam search)。
“我們發現一個很有意思的現象,機器比較傻,不管說得聽懂沒聽懂,都要翻譯一個結果。”陳偉說,人工同傳會有選擇的丟句子,這是搜狗語音翻譯接下來的的重點,通過語義分析,可以把一些不太重要、對語意影響不大的句子扔掉。
機器是單句對單句的翻譯。搜狗語音翻譯除了要求準確性外,還要低延遲,2、3秒內就要翻譯出來,導致遇到特別長的句子就會斷句翻譯,影響到翻譯的效果。翻譯嚴重依賴上下文,比如當出現一個“Apple”,隻有根據上下文,人們才知道,說的是蘋果公司,還是可以吃的蘋果,這是機器翻譯最大的難題。
要解決這個問題,陳偉認為搜狗需要把兩件事做好:一是把識別準確率保持在穩定的97%,二是更好的找到一個完整的語譯邊界。
2013年前後,搜狗做過語音助手,但項目進展並不好。陳偉反思認為,語音助手沒做好,原因是產品的邊界沒有定義清楚。所以再做搜狗語音翻譯,就特別注意做垂直和細分,做車載就注重導航需求,做音樂就重點做聽歌。
“這兩件事(準確率和定義邊界)能做好就已經很難了。”陳偉說,做好這兩件事,關鍵還是要引入更多的資源和知識,特別是像詩詞、機構名、人名、地名的翻譯。隻有引入更多的知識,才知道怎麼翻譯更合適。
“實用”是最關鍵的衡量標準
“WNT比賽,主要是麵向新聞領域,今年新增加聊了中英和英中兩個方向,新聞語譯大概有800、900萬的訓練數據。”陳偉說。8月份上線的搜狗聽寫,是業內是第一家商用的語音技術產品。
早在2016年8月,搜狗推出了語音交互引擎“知音”,主打“自然交互+知識計算”的技術戰略。其後,搜狗打造出“知音OS”語音交互平台,麵向手機、電視、可穿戴、車載設備等智能設備,目前,已經在小米、魅族、創維、海爾等產品中落地應用。
2017年2月,基於搜狗搜索立知係統研發的人工智能問答機器人“汪仔”,還登陸了中國收視率最高的益智答題節目《一站到底》。
而搜狗聽寫更加專注於特定的場景和人群,讓語音技術為更多人所用。搜狗聽寫使用了搜狗輸入法的長時語音轉寫技術,從立項到現在,錯誤率已經下降了30%。在聲學模型方麵,采用了端到端深度神經網絡技術Deep LC-CLDNN+CTC技術,轉寫模式則使用了Deep CNN+CTC的方式,語言模型基於T級海量輸入法文本數據使用神經網絡進行建模。
搜狗在識別方麵,會考慮怎麼能在聽歌的場景下做交互,更多做這些細節的事情。現在,搜狗有在輸出自己的音箱解決方案。在兒童智能手表唐貓上麵的語音也是都夠語音支持,接下來,搜狗還會發布其他產品。
“大家現在做機器翻譯,除了服務自身外,也是想做一些生態出來。語音這一塊,我們覺得交互是一個非常明朗的場景狀態,我們希望把能力輸出出去,探索一下到底語音交互的真實場景會在什麼地方。”王宇光說,搜狗認為比較剛需的場景應該在車載、智能家居、可穿戴上,因此搜狗會圍繞這三個場景圍繞去做,跟一些公司做深度定製,比如小米、創維。
陳偉的團隊目前的精力主要放在交互上,做多模態的輸入,包括語音的聽、說和識別,其中識別包括聲紋識別,語種識別、語音分析等。
聲紋識別的商業化落地空間還很大。比如和互聯網電視廠商合作,可以做節目的推薦,根據不同的聲音,判斷是爸爸、媽媽、還是爺爺、奶奶,進而推薦不同的節目,如果是兒童,還可以啟動兒童鎖,避開成人節目。
但商業化的進程,還要看用戶的容忍程度。如果用戶要求像支付一樣,實現100%的準確率,那麼,機器翻譯還有很長一段路要走。但是,對於偏娛樂場景交互的電視,陳偉覺得,搜狗應該是可以滿足要求的,在聲紋裏麵處理,可以達到94—95%的準確率。
AI是搜狗未來重要的核心戰略。搜狗CEO王小川曾表示,“人類對於人工智能的終極描繪,始終是同人一樣進行自然的語言交流,這也是搜狗人工智能的發展目標。”
最後更新:2017-10-08 04:33:31