2017年ACL的四個NLP深度學習趨勢 (二):可解釋性和注意力(Interpretability and Attention)
更多深度文章,請關注:https://yq.aliyun.com/cloud
2017年ACL的四個NLP深度學習趨勢 (一):語言結構和詞匯嵌入(Linguistic Structure and Word Embeddings)
趨勢3:可解釋性()
我最近一直在思考可解釋性,然而我並不孤單,在深度學習實踐者中,神經網絡的可怕的“黑匣子”質量使他們難以控製,難以調試。然而,從非研究者的角度來看,有一個更重要的理由要求可解釋性:信任。
公眾,媒體和一些研究人員如果不能理解AI是否可以信任,反而表示更加擔心,雖然這些焦慮是有根據的(見“Facebook聊天發明自己的語言”故事)。例如,如果AI係統吸收了訓練數據中存在的不必要的偏差,但是我們無法檢查這些偏差,那麼我們就有一個災難的係統。第二,由於人工智能係統不完善,有時會失敗,所以我們必須能夠檢查自己的決策,特別是對於比較複雜的任務。第三,即使AI係統運行良好,人類也許總是需要解釋來說服自己。
那麼到底什麼是可解釋性?在研究人員看來“可解釋性”也可以有許多定義,對於這些定義的看法,我強烈推薦Zachary Lipton的“模型解釋的神話”。特別是,利普頓確定了兩種廣泛的解釋方式:事後解釋和透明度。事後解釋采取學習模式,並從中吸取一些有用的見解;通常,這些見解僅提供模型的工作原理部分或間接解釋。透明度更直接地提出“模式如何工作”,並尋求提供一些方法來了解模型本身的核心機製。
在今年的ACL,我看到許多論文提出了各種創造性的方法,以獲得神經係統的事後洞察。
可視化可能是最常見的事後解釋類型,特定類型的可視化(如顯著圖和字預測)成為標準,這些可視化是有用的。在可視化和理解神經機器翻譯中,計算相關性分數,量化了特定神經元對另一個神經元的貢獻。論文中提供的可視化看起來非常類似於從注意力分布產生的可視化。然而,計算的方法是不同的。相關性分數是直接衡量一個神經元在受訓模型中對下遊神經元的影響。Ding等人的相關性分數提供了一種有效的替代方法來測量序列到序列模型中的詞級相關性。
轉移學習是另一種流行的事後解釋技術,其中任務A(通常是高級任務)為學習的代表被應用於任務B(通常是較低級別的任務)。任務B的成功程度表明任務A模型已經學到了任務B。
雖然轉移學習和注意力可視化可以告訴你“多少”,但他們不會告訴你 “為什麼”。為了回答後者,一些研究人員直接研究了表示空間幾何的本身。在神經讀者的隱藏狀態向量中的緊急預測結構中.Wang et al。他提供證據表明,在基於RNN的閱讀理解模型中,隱藏的向量空間可以分解為兩個正交子空間:一個包含實體的表示,另一個包含關於這些實體的語句(或謂詞)的表示。在用於分析連續詞嵌入的參數自由分層圖形分簇中,Trost和Klakow對字嵌入進行聚類,以獲得層次化的樹狀結構。根據本文提供的示例,層次結構可以提供更可讀的方式來探索詞嵌入的鄰域結構。
直接進行事後解釋的另一種方法是將解釋本身視為翻譯任務。在翻譯神經.Andreas et al。他采取訓練進行協作任務的兩台機器之間傳遞的向量信息,並將其轉化為自然語言語言。
盡管從無法解釋的神經模型中收集了所有的工作數據,但一些研究者認為盯著神經元隻會讓我們毫無所獲。真正的可解釋性要求透明度——構建和訓練的模型本身可以解釋。
根據定義,語言結構化表示比非結構化表示更容易解釋。因此趨勢1也可以被看作是向更透明的神經網絡模型的轉變。神經網絡是強大的,因為它們可以學習任意連續的表示。但人類發現離散的信息,比如語言本身,更容易理解。
我們可能擔心我們對神經模型的強製性限製會降低其表現力。擔心解釋性會以有效性為代價。但是,稀疏性誘導正則化可以改善在不損害神經模型的前提下,並且稀疏的詞嵌入可以比原始密集法更有效。在多語言序列標簽的神經詞嵌入的稀疏編碼中,Gábor Berend展示了稀疏詞嵌入對NER和POS標簽的有效性,特別是在有少量訓練數據的情況下。
對於回答複雜問題的AI係統,如果人類信任答案,透明度尤為重要。這些係統應該理想地產生答案的證明或推導過程。對於解決數學問題的係統,證明應該是一個逐步的自然語言派生的最終答案。這正是Ling等人提供的基於生成原理的程序導入:學習解決和解釋代數詞問題。他們的係統不是直接和毫無瑕疵地產生最終答案,而是共同學習產生數學轉換的基本序列。
我不確定事後可解釋性或透明度是正確的道路。事後可解釋性傾向於給出有限的解釋,雖然迷人,但通常是隱藏的本身。我認為更靈活的解釋技術,是基於翻譯的方法。雖然他們提出了關於信任的問題。另一方麵,透明度是有吸引力的,因為可解釋性應該是一個設計選擇,而不是事後的想法。雖然我們還沒有建立透明的端到端的神經係統,但是使係統的一小部分透明化也非常有用。請注意,注意機製作為一個健全檢查和調試工具有助於開發係統。
趨勢4:注意力(Attention)
注意機製正在迅速成為最流行的技術,它可以用於繞過信息流中的瓶頸,它能夠實現無法通過前饋層實現的鍵值查找功能,並提供了一些非常需要的解釋性。注意力機製在今年的ACL上有所增加,論文一共有十五篇,比上年的九個有所增加。
注意機製是序列到序列框架中最可操作的一部分。因此,研究人員通過設計越來越複雜的注意力模型來尋求成功,目標是解決特定的特定任務問題。
有三篇論文提出了問題回答的模式,在這些模型(注意注意力,交叉注意力和門控注意力)中,第三種模型引入了多跳注意力,這使得模型在得到答案之前可以迭代地遍曆不同的部分。本文的附錄包含幾個演示了多跳推理的必要性和有效性的例子。
注意力也已經成為衡量和綜合來自多個潛在的多模態信息源的標準方法。Libovicky等人 Lin等人考慮同時通過文本和圖像來翻譯標題。在這些情況下,注意力很方便,因為它提供了從任意數量的源獲取固定大小的表示的一般方法。
其他人發現,在多個維度上應用注意力對某些任務很有用。例如,語法錯誤糾正需要嵌套注意力:字級注意檢測字順序錯誤,以及字符級注意檢測拚寫錯誤。
注意力機製的熱情似乎可以證實最近大膽的聲稱:注意力是你需要的。然而,在ACL,我注意到一些研究人員提供關於潛在的陷阱或注意力錯誤的警告信息。
例如,有些情況下,我們可能希望注意力不起作用·Tan et al。他認為對於抽象文獻總結,注意力分布不能有效地模擬源句子的顯著性。相反,他們通過使用深度學習的提取摘要算法(基於PageRank的句子排名),從而獲得更大的成功。這個結果作為一個重要的提醒:我們不應該丟棄過去幾十年的積累的NLP知識,雖然不時尚,但這些技術可能提供改善我們神經係統的關鍵。
另外可能在一些情況下,注意力是多餘的。Bollman等人 發現當他們引入多任務學習的輔助任務時,增加注意力機製就變得有害而不是有用。作為解釋,他們提供了證據表明輔助任務中增加注意力機製是多餘的。雖然我不完全理解注意力和多任務學習之間的這種互動,但我們應該注意這一現象,因為它對未來係統的發展構成潛在的陷阱。
雖然注意力最初被認為是解決對序列到序列NMT的瓶頸問題,但事實證明它是一個更為基礎和通用的技術。通過考慮為什麼關注如此受歡迎,我們可能會了解到當前深度學習社區的需求。例如需要解釋性,長距離依賴性以及動態結構。我認為注意力機製隻是實現這些事情的第一步。
結論
雖然這隻是我參加過的第二個ACL,但我對今年的組委會印象深刻,他們通過透明度,聽取社群的意見,並且積極處理這些問題。在這個非常依靠經驗驅動的時代,我們認為我們應該追求並做好可以複製和重現的假設驅動的科學。
在深度學習高速發展的這幾年,NLP社區有理由感到興奮和焦慮。但我對社區有信心,隨著時代的變化而保持其集體智慧。所以,不需要炒作也不要害怕。深度學習既不是NLP的終極解決方案也不是死亡。
本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織翻譯。
文章原標題《machine-learning-vs-statistics》,
作者:abigail Chris Manning教授的博士生
個人網站:https://www.abigailsee.com
譯者:袁虎 審閱:主題曲哥哥
文章為簡譯,更為詳細的內容,請查看原文
最後更新:2017-09-24 12:03:18