2017年ACL的四個NLP深度學習趨勢（一）：語言結構和詞匯嵌入（Linguistic Structure and Word Embeddings）

更多深度文章，請關注：https://yq.aliyun.com/cloud

介紹

在本月初我在溫哥華出席的ACL（國際計算語言學協會 (ACL，The Association for Computational Linguistics) ）時Joakim Nivre宣布：“NLP正在蓬勃發展”。參加人數眾多的人士認為，學術界對NLP的興趣已經處於曆史最高點，主要是因為深度學習的成功。

然而，我參加ACL時注意到的一個研究人員的焦慮，因為一個領域正在快速發展轉型。研究人員對是否將舊的NLP算法遺留下來還是拋棄，他們產生了焦慮！神經網絡是我們需要的唯一技術嗎？我們如何做好科學，論文發表在arXiv上算是真的成功嗎？

b283e757929be534ff5653d4378ce2f0828ddb5b

雖然這些問題在ACL上不時出現，但研究人員整體的狀態仍然是積極的。在2017年的ACL，NLP社區繼續熱情地接受深度學習。在這篇文章中，我將就NLP研究發展的趨勢發表自己的看法。

關於這篇文章

在接下來的兩篇文章中，我會闡述在會議（及其共同的活動）中，我通過論文，演講和討論上觀察到的四個NLP的研究趨勢。它主要集中在深度學習，序列模型，序列到序列框架。第一部分將探討兩個相互關聯的趨勢：語言結構和詞語表達。

趨勢1：語言結構回歸（Linguistic Structure）

最近深度學習的複興已經強調了NLP的簡單統一範式：語句隻是單詞序列（language is just sequences of words）。根據這個邏輯，任何更深的網絡結構都是不必要的，隻需訓練一個RNN的 end-to-end，隨機梯度下降就能找出答案！雖然這種方法已經迅速地獲得了巨大的成功，但其局限性正變得越來越明顯。在2017年的ACL，幾位著名研究人員反對“語句隻是單詞序列”的邏輯，並提出了理論，既實用又有原則。那麼為什麼NLP應該重新回到語言結構呢？

原因1：減少搜索空間

米雷拉·拉帕拉（Mirella Lapata）質疑了RNN序列到序列框架的霸權地位。在她非常有趣的主題演講中，認為所有的語言特征都應該被丟棄。相反，她得出結論：語言結構正在歸來，並通過示例提供了一個例子來解釋。她認為語言結構可以減少輸出的搜索空間，從而更容易地生成良好的輸出。

例如，代碼生成涉及“生成前10個平方數的列表”的自然語言語句映射到相應的代碼片段，例如Python中的“[x ** 2 for x in range（10）]”。已經嚐試使用標準序列到序列方法完成這個任務，該方法將代碼簡單地稱為標記序列，而不是其底層樹結構。這使得生成任務在所有標記序列的整個輸出空間上是無約束的搜索。搜索任務容易產生不正確的輸出（例如，解碼器可能生成不匹配括號的代碼）。在ACL論文中，Yin和Neubig和Rabinovich等人采取結構化預測方法，直接生成底層的抽象語法樹。這種方法將搜索空間限製在格局良好的底層樹上，消除了不合格的輸出。

語言結構不僅對於具有代碼生成和語義解析等高度形式化的輸出任務具有明顯的幫助，而且它也可以幫助減少不太明顯的任務的搜索空間，如cloze式閱讀理解。Xie和Xing構造了一個隻探索這些節點的係統,他們認為這比瀏覽文檔中探索所有可能的節點要容易得多。

原因2：語言支架（Linguistic scaffolding）

8a2ea92f03f453710ffea3de3d097360a1065ef0

諾亞史密斯在主旨演講中反對他所謂的“全南瓜飲食”——線性變換+擠壓函數（又稱神經網絡）作為NLP的唯一模型。相反，他鼓勵大家思考NLP模型的歸納偏差，即模型的基本假設，以及這些假設如何影響他們學習的內容。

史密斯特別強調了多任務學習的力量，並將它視為引入理想的歸納偏差的一種方法。ACL看到幾篇論文成功地采用了這種方法，特別是Eriguchi等人和吳等人為NMT設計了新的混合解碼器，它使用shift-reduce算法來同時生成和解析目標序列。

NMT +解析係統的聯合，似乎優於序列順序係統，也可能受益於減少搜索空間。對於長句子，NMT性能不佳，聯合解析輸出可以消除來自搜索質量差的輸出，從而允許搜索在更好質量的候選者之間進行選擇。

原因3：句法近因>連續近因

克裏斯·戴爾（Chris Dyer）認為，將語言結構納入深度學習領域是非常重要的。像諾亞·史密斯一樣，他也要求注意順序方法中固有的歸納偏差，他認為RNN對順序回歸具有歸納偏倚，而語法指導的層次結構（如遞歸NN和RNNGS）對語法近似性具有歸納偏倚。戴爾認為語言本質上是層次性的，結論是句法近因是對順序近因的一種優選的歸納偏差。

在ACL中，有幾篇文章指出，RNN明顯無法捕獲遠程依賴關係，而是使用遞歸模型可以進行改進。例如，在用語法感知編碼器和解碼器進行改進的神經機器翻譯中。他們發現使用遞歸編碼器可以提高整體性能，對於較長的句子而言，改進的程度更大。

雖然語言結構複蘇，但仍有一些障礙，因為實施多任務學習是繁瑣的。非順序架構在GPU上更難以並行化（但是新的動態庫提供更簡單和更有效的實現方法）。結構化預測任務的監督學習可能會受到缺乏並行數據的阻礙。幸運的是，在2017年的ACL都Liang等人。和Iyyer等人使用弱勢監督通過語義解析來執行任務，注意它是無需訪問分析本身。

趨勢2：重新考慮Word嵌入（Word Embeddings）

word嵌入是一種分布式的特征表述，向量的不同維度用來表征不同特征，不同維度上就代表著不同的語義。例如蘋果和紅旗都是紅色的，蘋果和香蕉都是水果。

今年題為“word嵌入”的論文數量從10個下降到了4個，盡管如此，詞嵌入仍然是一項標準的技術。今年ACL的相關文章非常有趣，也許是因為詞嵌入已經通過“炒作”階段進入了“審查”階段。這些論文探討了詞嵌入成功與失敗的界限，它做什麼，以及如何改善自己的弱點。

令人驚訝（但經常被誇大）的詞嵌入的成功是他們的添加組合結構，令人難以置信的Skip-Gram-Zipf + Uniform = Vector Additivity旨在解釋這一成功。作者證明了，用跳過式模型訓練的分布詞嵌入，在某些假設下具有可加性。最顯著的是這些詞是均勻分布的，雖然訓練語料庫不是均勻分布的，但是這個結果可能會解釋詞嵌入為什麼具有的可加性。

其他論文研究了分詞假設在詞嵌入上的局限性。Li和Gauthier研究的問題：是否為現實世界準備了分配代理？，他們發現在詞嵌入捕獲某些概念特征，它們並不傾向於捕獲感性特征。該論文盡可能的唿喚基礎學習，正如通過建立機器人語言接地新研討會所證明的那樣。

詞嵌入的另一個更明顯的問題是它們不考慮多義詞，而是分配每個表麵形式一個向量。Upadhyay et al（論文），利用多語言並行數據來學習多義詞單詞嵌入，例如，將英文單詞庫翻譯成法語單詞banc和banque都是銀行多義詞的證據。在多模態詞分布中，Athiwaratkun和Wilson沒有用單向量表示單詞，而是用它表示具有多種模式的高斯概率分布，從而捕捉到不確定性和多義詞。

2f7ff5414b83ddbe62a433a046961841c2bfcaba

標準的詞嵌入最難解決的限製是對形態信息的盲目性。因為在處理這樣的問題時，總是將每個表麵形式作為一個單獨的匿名單元來處理。這可能會導致諸如無法識別兩個詞（例如走路者和步行者）具有相同的引理（步行）的問題。這是最近從詞嵌入轉向字表示的主要原因。

作為潛在的新標準CNN出現有人質疑它是依靠形態學解決的？今年的ACL至少有兩篇論文表達了的否定態度。Vania和Lopez比較了幾個子詞組合表示的語言建模性能，發現它們中沒有一個表現的能夠與獲得形態學注釋的模型一樣。即使提供原始輸入模型進行多次的訓練，這一結果仍然保持不錯的性能。

05286aafd1dc030dd8e78238343c2d2bea660394

這些結果表明，如果我們想要真正有形態意識的詞匯表示，我們可能需要一個更明確的形態模型，而不僅僅是字符組成。在他們的變形論文中，Vulić通過使用非語言學家編寫的一些非常簡單的形態規則來微調詞嵌入。同時，Cotterell和Schütze提出了一個更全麵的形態學模型，共同學習一個可以將一個單詞劃分成其形態組分的係統（例如，questionably→ question+ able+ ly）。我認為這是一個非常有價值的方法，因為任何形態理解係統都必須能夠構成和分解意義。雖然該模型在評估任務上表現良好，但我想了解的是如何輕鬆地將其轉移到諸如句法解析或語言建模等外部任務中。

4d6a38ea0d11690441d22dc13c0709e27ce05ecc

詞語是語言的基礎，所以當我們選擇如何建模語言時，我們的假設是重要的。盡管分布式語義對我們來說已經很好，但是這些語言不僅僅是它們出現的語境。在未來的幾年中，我認為我們將會看到更多的基礎，視覺和互動語言學習來補充分布式表示。

2017年ACL的四個NLP深度學習趨勢（二）：可解釋性和注意力（Interpretability and Attention）

本文由北郵@愛可可-愛生活老師推薦，阿裏雲雲棲社區組織翻譯。

文章原標題《machine-learning-vs-statistics》，

作者：abigail Chris Manning教授的博士生

個人網站：https://www.abigailsee.com

譯者：袁虎審閱：主題曲哥哥

文章為簡譯，更為詳細的內容，請查看原文

最後更新：2017-09-24 16:03:49

2017年ACL的四個NLP深度學習趨勢（一）：語言結構和詞匯嵌入（Linguistic Structure and Word Embeddings）

更多深度文章，請關注：https://yq.aliyun.com/cloud

介紹

關於這篇文章