阿裏智能音箱發布前夕,首次公布自然語言處理成果
阿裏巴巴AI Labs 將在7月5日發布第一款智能音箱設備的消息引發了國內極大的關注,但讀者們不僅不熟悉阿裏巴巴AI Labs,對阿裏自然語言處理方麵的成果是不是也不理解?這篇文章介紹了阿裏巴巴被國際數據挖掘頂會KDD2017收錄的一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智能問答及分類中的應用》。
上周,關於阿裏巴巴成立 AI Labs 的消息不脛而走。事實上,該機構在 2016 年低調成立,主要負責阿裏巴巴集團旗下消費級 AI 產品研發,與 iDST 的定位有所區別。從機器之心收到的發布會邀請函及其他公開消息看,7 月 5 日,該機構將發布第一款實體產品智能音箱設備,它能夠理解中文語音指令,還能讓阿裏巴巴的用戶在淘寶上購物,短期內僅麵向中國市場發售。
與此同時,這次為阿裏巴巴智能音箱提供技術支持的團隊也首次曝光了其自然語言處理成果。一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智能問答及分類中的應用》被國際數據挖掘頂會 KDD2017 收錄。在自然語言處理的兩個核心應用場景------文本分類和智能問答上,阿裏巴巴這套「即刻喚醒,即刻識別」神經網絡模型的智能問答準確率相比微軟的 wikiqa 數據集和 IBM 的 insuranceqa 數據集提升了 2-4%,是目前業內最高水準。
該論文的作者、阿裏巴巴人工智能實驗室資深算法工程師王成龍對機器之心談到這項技術的挑戰,「初期相關模型訓練所需的語料較缺乏,在開發的同時,我們積累起來一批獨有、海量的中文語料,有力支持了我們的模型訓練。神經網絡模型的計算複雜度比較高,性能問題是線上應用的一個主要瓶頸,這一方麵,我們針對神經網絡模型的線上部署做了很多的優化工作,保證在大並發請求下依賴能有較好的性能。」
另一方麵,基於神經網絡的 NLP 方法都依賴分詞,英文的分詞是天然的,而中文是以「字」為單位,這也使新品技術開發的難度有所提高。王成龍說:「英文的句子結構則更加清晰,而漢語重意合而不重形式,句子結構比較鬆散,中文相關標準語料集的缺失也是一大瓶頸。」
阿裏巴巴收到 KDD2017 的邀請郵件
論文顯示,阿裏巴巴研發了一款名為 conv-RNN 的通用推理混合框架,用於文本的語義建模,無縫集成了從卷積和循環神經網絡結構中提取語言信息的不同方麵的優點從而加強新框架的理解力。可有效甄別用戶的對話意圖,自主決策對話中的策略,實現「自然語言無縫理解,跨領域自由切換」。
阿裏巴巴首創的 conv-RNN 混合框架
業界普遍認為,自然語言處理是人工智能中最難的部分,也是決定 AI 是否「智能」的關鍵因素。王成龍在接受機器之心采訪時說,「阿裏巴巴在語音交互技術方麵已經深耕多年,並已在多類產品中應用。」
針對這篇論文,該團隊向機器之心發布了獨家技術解讀:
自然語言這一被人類發明的信號係統,通常被我們歸為一種「非結構化數據」。其原因在於,自然語言文本是由一堆符號(token)順序拚接而成的不定長序列,很難直接轉變為計算機所能理解的數值型數據,因而無法直接進行進一步的計算處理。語義編碼的目標即在於如何對這種符號序列進行數值化編碼,以便於進一步地提取和應用其中所蘊含的豐富信息。語義編碼是所有自然語言處理(Natural Language Processing,NLP)工作的「第一步「,同時也很大程度地決定了後續應用的效果。
傳統的文本編碼方式通常將其當作離散型數據,即將每個單詞(符號)作為一個獨立的離散型數值,如 Bag-of-Words (BOW)、TF-IDF 等。但是這類方法忽略了單詞與單詞之間的語義關聯性,同時也難以對單詞的順序及上下文依賴信息進行有效編碼。近幾年,深度學習技術被廣泛的應用於 NLP 領域,並在眾多算法命題上取得了突破。其本質在於,深度神經網絡在特征提取(語義編碼)上具有極大的優勢。
當前,較為常用的文本語義編碼模型包括循環神經網絡(Recurrent Neural Network,RNN)以及卷積神經網絡(Convolution Neural Network,CNN)。
循環神經網絡是應用最為廣泛的序列數據神經網絡建模方法。相對於傳統的前向神經網絡,循環神經網絡的主要特點在於,在每個時刻,其輸出不僅要依賴於當前時刻的輸入,還要考慮上一時刻的模型「狀態」。通過對曆史狀態的依賴,RNN 模型能夠有效的表征文本數據的上下文依存信息。但是,RNN 的「宏偉目標」-有效管理任意跨度的信息傳遞-往往使得其難以有效的訓練,進而也限製了其在具體應用中的效果。
另一被廣泛應用的語義編碼模型是 CNN 模型。傳統的 CNN 建模通常用於解決圖像的特征提取。但近年來,眾多學者嚐試將其應用到文本處理領域。CNN 的模型結構來源於對人類視覺神經信號處理機製的模擬。與文本數據不同的是,圖像數據通常被看做一個二維數據結構,而相應的 CNN 模型也更適於提取其中的「局部」特征。但與圖像數據相似的是,文本數據中的上下文依賴通常可以被簡化為一種「局部」信息,即傳統 NLP 領域中的 N-gram 語言模型:文本中一個詞的具體含義,通常隻和上文有限距離內的幾個詞相關。因此,CNN 中的「局部卷積」信息處理機製同樣可以應用於文本數據中,用於提取文本中的 N-gram 特征。但是,與圖像信息不同的是,文本數據中的上下文依賴關係有可能會經曆一個很長的跨度。而 CNN 隻能對固定範圍內的局部依存關係進行建模。因此,CNN 語義編碼方法也存在一定的缺陷。
近期,我們團隊與數據技術及產品部兄弟團隊共同投稿一篇 KDD 文章,其中我們提出了一種新的文本語義編碼算法 conv-RNN(如圖 2 所示)。該模型在參考了循環神經網絡與卷積神經網絡的同時,進行了進一步的文本語義編碼優化。conv-RNN 不僅保留了 RNN 模型對不定長跨度的上下文依賴的編碼能力,還利用了 CNN 模型中常用的最大池化機製,用以更加簡潔地從文本數據所蘊含的豐富信息中抽離出不同的信息表征。此外,在 conv-RNN 的基礎上,我們還提出了一種新的智能問答(answer selection)模型以及文本分類(sentence classification)模型。為了充分驗證所提出的模型的效果,我們分別選取了智能問答及文本分類領域的一批標準數據集,與當前業界的最新成果進行了對比驗證。
智能問答是當前比較火的一個 NLP 應用領域,也被認為是 NLP 研究最有可能於近期實現商業化落地的一個領域。在 conv-RNN 語義編碼算法基礎之上,我們進一步提出了一種新的問答匹配模型。此外,在該模型中,我們還引入了一種「權值共享」機製以及 attention 方法,用以進一步提升 question-answer 匹配效果。
我們選用了微軟發布的 WikiQA 數據集以及 IBM 發布的 InsuranceQA 數據集用來對比所提出的模型與業界的 state-of-the-art 方法,以驗證該模型的有效性。由結果可知,在 WikiQA 數據集上,conv-RNN 擊敗了所有 state-of-the-art 方法,並且在 MAP(mean average precision)和 MRR(mean reciprocal rank)兩個指標上均取得了較大的提升。在 InsuranceQA 數據集上,conv-RNN 在 dev 和 test2 兩個測試集上均取得了較大的提升,僅在 test1 上略低於 AP-BILSTM。
在 conv-RNN 的基礎上,我們進一步提出了一種新的文本分類模型(如圖 4 所示)。為了驗證該模型的有效性,我們選取了業界常用的 5 個標準的分類數據集:Movie Review(MR);Stanford Sentiment Treebank-1(SST-1);Stanford Sentiment Treebank-2(SST-2);Subj;IMDB。由對比結果可知,conv-RNN 在前 4 個數據集上均超越了各類 state-of-the-art 方法。
語義編碼技術是所有 NLP 工作的基礎,也是當前 NLP 技術進一步發展的主要「瓶頸」所在。我們在語義理解以及更上層的智能問答、多輪人機交互方向已經有了一定的技術積累,後續還會繼續在這一方向發力,以期能夠盡快做出為大眾服務的人工智能產品。
最後更新:2017-07-05 11:32:22