801
技術社區[雲棲]
用公開語料推進NLP研究,孵化現象級產品 | 專訪阿裏AI Labs聶再清
相比用“手”和“眼睛”,以及其他以手機和電腦為媒介的操作,“語言”無疑是人類最自然的交互方式。正如亞馬遜硬件高級副總裁Dave Limp所說,“亞馬遜相信下一個大平台是語音,我們要做的就是為用戶打造一個完全由語音控製的雲計算機(指Echo)。”
亞馬遜Amazon Echo、蘋果Apple HomePod、穀歌Google Home
如果說PC時代的搜索引擎成就了穀歌,造就了這家當今世界最大的數據公司,那麼隨著智能產品的普及,誰先用現象級產品掌握了語音的入口,誰就將成為AI時代的贏家。
然而目前,在複雜的現實場景中,智能音箱的交互體驗依然有限,比如調節空調溫度的時候,向智能助手喊話可能還不如直接動手按按鈕來得方便。創新工場人工智能工程院副院長王詠剛也曾公開表示,僅僅是智能音響的喚醒詞背後,就蘊含有巨大的技術含量:“想把喚醒詞做到喚醒70%以上,喚醒的區間1米到10米,想把喚醒詞做到兼容非常多的不同噪音環境是非常非常難的技術,這件事在所有現在已經發售的智能音響來說,能做好的寥寥無幾。”
圖:2001太空漫遊裏的超級電腦HAL 9000距離我們依舊遙遠,不過在外形上,不論是天貓精靈還是蘋果HomePod,都似乎在致敬HAL。
國外的廠商如亞馬遜、穀歌、蘋果、索尼,國內的如阿裏、京東+科大訊飛、小米甚至喜馬拉雅都在搶占智能音箱的市場。2015年售出250萬台、2016年520萬台,亞馬遜Echo一直是音箱領域的霸主。而穀歌在今年10月初的發布會上,在原有的Google Home之外,發布了兩款智能音箱Google Home Mini和Google Home Max,定位低端和高端消費者,直接對應亞馬遜的Echo Dot和蘋果的HomePod。
阿裏發布於今年7月的智能音箱——天貓精靈,可以被視為阿裏布局在語音交互領域的入口級產品。10月20日,天貓雙11預售開始,原價499元的天貓精靈,“雙11價”超級會員價格為99元。目前國內多數用戶盡管對智能音箱有好奇,但出於較高的價格等原因,對於購入相關產品仍停留在觀望態度,而這次天貓精靈的雙11價,似乎試圖給國內觀望用戶提供一次低成本接觸人工智能的機會。
圖:截至大數據文摘發稿,天貓精靈的預定數量已經超過29萬台。
阿裏的視野顯然不僅限於音箱,音箱也不會是語音交互的唯一入口。在剛剛結束的雲棲大會上,阿裏宣布開放天貓精靈的內置人機交流係統AliGenie。就這一舉措而言,阿裏想做的一定不僅僅是打造智能家居設備的中心。未來,無人小店、酒店、機場候機室等行業的普通硬件產品都將能夠借助開放平台獲得語音交互能力,提供智能語音服務。越來越多的硬件設備和行業場景都將進入語音時代,而且人人都可以成為開發者,構成一個”智聯網“產品生態係統。
大數據文摘有幸對天貓精靈背後的研發團隊——阿裏人工智能實驗室(以下簡稱 AI Labs)北京研發中心總負責人聶再清博士進行了專訪。
聶再清博士此前就職於微軟亞洲研究院任首席研究員,他和穀歌Daydream/Tango項目技術主管李名楊博士的入職,被視為阿裏達摩院成立後的“第一槍”,也預示AI Labs未來的產品方向——除了天貓精靈這一語音交互產品外,很有可能會推出基於視覺交互,甚至“機器人”類型的人工智能產品。
圖:阿裏巴巴人工智能實驗室北京研發中心總負責人聶再清。聶再清博士於今年10月加入AI Labs,此前他就職於微軟亞洲研究院任首席研究員,主要負責自然語言理解、實體挖掘的研發工作。加入AI Labs之後,聶再清博士的主要研究內容仍是基於語音轉化成文本後的文本語義理解,並將主要負責知識圖譜和自然語言理解的研究團隊的建立。
采訪中,聶再清博士一再表示,相比其他企業的研究中心,阿裏AI Labs最大的特點是在研究的同時注重產品的孵化。“阿裏AI Labs和傳統實驗室的區別是除了技術之外,還有市場、設計等等部門,非常適合孵化一個產品。我和團隊的座位在一起,大家作戰式工作,非常緊密,喊一聲就都聽到了。”
而聶再清自己也非常強調用戶的反饋,希望做出產品級的東西讓每個人都能用上,真正改變人類的生活方式。而這一點很契合馬雲在雲棲大會主論壇上對“達摩院”的定位:research for solving problem(點擊查看大數據文摘相關報道《阿裏成立達摩院預計3年投千億,馬雲稱它要活的比阿裏更久》)。
“我非常認同馬雲老師說的‘research for solving problem’,有些人做研究可能目光比較長遠,他不需要別的feedback(反饋)就可以想到一個改變100年以後的事情的研究方向,但我可能看不到。我非常強調feedback loop(反饋環路),更希望用戶給我反饋,讓我在用戶的指導下做一些東西出來。”
聶再清認為隨著天貓精靈的內置人機交流係統AliGenie平台的開放,阿裏能夠賦能第三方在平台上,讓更多人參與進來。進而建立一個有相當流量的生態,在這個生態中讓每個開發者都有利可圖,進而用公開語料大大地推進自然語言理解和知識圖譜的研究,讓機器更好地理解人的語言。
當被問及一個好的AI團隊應該是研究導向還是產品導向的時候,聶再清頗有感慨:“在剛開始的時候,一個研究人員需要更多的積累,所以是研究導向的,但一旦有了想法,有了某個機會,一定是產品驅動。對一個人來講,研究和產品可能無法兼得,但一個團隊可以協作完成。”
而關於什麼是好的AI人才?聶再清認為他首先應該關心前沿技術,要參與到學術圈裏去對話、去交流、去得到同行的反饋,同時要比較落地、了解用戶的需求,還要有情懷、對推進技術向前發展充滿熱情。
“我很喜歡做研究,但我個人比較喜歡做一些真正落地的產品級的東西,希望讓每個人都能用上這個東西。我以前做的人立方也很成功,很多人報道、很多人知道,但沒有達到人人都知道、人人都用上的狀況。我非常希望有一個機會,能創造一個東西來改變人類的生活方式。”聶再清說。
大數據文摘還就聶再清博士在NLP研究領域的相關工作進行了提問,以下為專訪實錄:
大數據文摘:
可以介紹一下您目前的研究方向嗎?
聶再清:
我們在做的事情是把大量公開數據、公開知識,利用到模型裏去。我的設想是建立一個很大的可替換詞詞典,把每個詞從一個string(字符串)變成一個ID。比如,“姚明”這個詞,可能大部分人想到的是打籃球的姚明,但可能也有人想到其他的姚明。
這個東西微軟或者阿裏巴巴全部自己做也不行,必須有一個生態,和開發者們一起做,同時必須利用大數據。互聯網上各種人說了很多話,怎麼能利用公開的語料,根據說話的不同的意圖建立可替換詞?
阿裏在做天貓精靈,這是一個全新的語音交互平台。語音輸入這是一種新的輸入方式,它需要一個入口。不一定是跟音箱交互,可以是在車裏麵講話,可以是對著電視機的遙控講話。怎麼能讓用戶覺得跟機器交互得更加自然?這就是我們努力的方向。
大數據文摘:
深度學習的研究方法在NLP領域占主導地位,但大家也有些疑問——到底有什麼進展?
聶再清:
我主要介紹三個方向的進展:
-
神經機器翻譯,深度學習的方法比傳統研究方法有很大提高
-
語言生成模型及其應用(寫詩、寫歌)
-
語義理解——用深度學習來有效理解用戶意圖和實體抽取。具體來說,我們用遞歸神經網絡去進行語義編碼,再加上一層卷積層來看到更多的全局信息。這點具體可以參考我們在KDD 2017上發表的論文(關注大數據文摘後,在公眾號後台回複“阿裏”,即可下載論文)
大數據文摘:
目前在自然語言理解領域的研究存在哪些難點?
聶再清:
自然語言理解或者語意理解,到目前為止我覺得還是人工智能裏麵最需要突破的、最難的一個方向。
首先因為自然語言有所謂“多樣性”,同一個意思,有各種各樣的表達方法。那你怎麼能夠窮舉這個表達方法呢?我們有一些方法,但是還沒有一個大的生態。這一塊我覺得還可以做很多事。
另外呢,自然語言還有一個“歧義性”,同樣一種說法,在不同場景下有不同的意思。怎麼去把文字放在不同語境下去進行理解。在這塊還有很大的挑戰。可以看一下我們在ACL 2016上發表的論文(關注大數據文摘後,在公眾號後台回複“阿裏”,即可下載論文)
大數據文摘:
如何看待“人工智能研究目前領先於產品落地”這一質疑?
聶再清:
其實現在人工智能有很多方麵進入了產品,支付寶刷臉、AR試衣服都是人工智能的體現。人工智能通過技術轉換,為產品的某個特征服務。任何東西要變成產品級,都要融入一些別的東西進來,因為產品需要獲得用戶的注意力和參與,讓用戶喜歡,這樣才會產生數據。
相比模型而言,數據更重要。Model可以簡單也可以複雜,model的改變可能增加5%的準確率,但如果數據量級增加,即使簡單的model也可能有很好的效果。作為一個產品,隻有大家對你有興趣,才會體驗和反饋,這樣我們才能更好地理解數據。未來,人工智能一定會越來越多地進入人的生活,也會摻雜傳統的軟件功能。
龍牧雪、魏子敏
最後更新:2017-10-24 15:33:55