2017上半年無監督特征學習研究成果匯總

更多深度文章，請關注：https://yq.aliyun.com/cloud

特征學習在無監督學習方式下的趨勢：回歸到多元學習的隨機目標，利用因果關係來表征視覺特征，以及在強化學習中，通過輔助控製任務增加目標，並通過自發進行預訓練。從未標記的數據中學到很多東西，似乎我們隻用標簽撇去了它的表麵。

在這篇文章中，我將向你展示，2017年無監督學習領域發生了什麼變化。

無監督學習是機器學習中長期存在的挑戰，它被認為是人工智能的重要組成部分。在沒有標簽的數據中有很多信息，我們並沒有完全的使用它，而值得注意的是，大腦的學習機理大多是無監督的學習方式。

為了模擬人腦的終極目標，無監督學習成為了很多研究人員的研究熱點。接下來我們就介紹一些近期無監督學習的成果。

第一個成果：多元學習的隨機目標

Unsupervised learning by predicting the noise[Bojanowski＆Joulin ICML17]；這篇論文，今年在ICML中排名第一。想法如下：從超球體采樣均勻的隨機向量，數值為數據點的數量級。這些將成為回歸目標的替代者。事實上，通過以最小化損失進行監督式學習，在深層卷積網絡中學習視覺特征，可以將圖像與隨機向量相匹配。大致過程如圖所示：

1c5574089441186134559e72bbae5a4f816c942b

特別地，在訓練過程網絡參數的梯度下降交替之間，將偽目標重新分配給不同的圖像，以便最小化損失函數。這裏是ImageNet的視覺特征的結果；他們都是在ImageNet上訓練AlexNet的結果，左邊是目標，右邊是提出無監督的方法。

41c043b8b75115c160ea650b54219271ba088b2f

在論文中探討的轉移學習，似乎是最先進的。但為什麼要這樣工作呢？因為神經網絡正在學習一個新的特征空間，這是一種隱含的多元學習。通過混合分配進行優化可能是至關重要的，因為不良匹配將不允許將類似圖像映射給彼此。此外，網絡必須作為信息瓶頸（information bottleneck）。否則，在無限容量的情況下，模型將簡單地學習一個不知情的1對1圖像到噪聲圖（Noise map）。

第二個成果：因果關係的重要性

Discovering causal signals in images[Lopez-Paz et al。CVPR17]我從同LéonBottou鼓舞人心的談話中發現了第二個成果：looking for missing signal，接下來要介紹的是他們的WGAN。這裏的討論重點是關於因果關係。但在談論之前，讓我們再回一下，看看因果關係。

如果你站在機器學習視角中去了解因果關係，你會很快得出結論：整個領域在其基礎上缺少一些相當重要的東西。我們創造了一個完整的解決行業問題的方法，那就是隻考慮相關性，聯想和預測隻是考慮訓練數據中的相關性，但這在許多情況下不會起到真正的作用。如果我們能夠在學習決策中考慮上因果關係的模型會不會有所好轉？基本上，我們可以避免卷積網絡告訴我們，圖片中的動物是獅子，因為背景顯示了的Savanna（美國東南部的大草原，有獅子）。

fb9887872e5a7a2c8212149390388425c9f9bb8c

許多人正在努力實現這一想法。這篇論文旨在通過實驗驗證“圖像數據集的高階統計信息可以告知因果關係”。更準確地說，作者猜測，對象特征和反效應特征是密切相關的，反之亦然，上下文特征和因果特征不一定相關。上下文特征給出了背景，而對象特征是通常在圖像數據集中的邊界框內，分別是大草原和獅子的鬃毛。

“因果特征是導致圖像中對象存在的原因，而抗因素特征是由圖像中對象的存在產生的”在我們的例子中，一個因果關係確實是Savanna的視覺模式，而一個反作用的特征將是獅子的鬃毛。

他們是如何進行實驗的？首先，我們需要訓練一個檢測器作為因果方向。這個想法是基於以前的許多工作，實驗表明“加性因果模型”可能會在關於因果關係方向的觀察數據中留下統計學意義，這反過來可以通過研究高階矩來檢測。（如果這些聽起來很陌生，我建議你閱讀本文的參考資料）。這個想法是學習如何通過神經網絡來捕獲這個統計軌跡，該神經網絡的任務是區分因果/反效應。

訓練這種網絡的唯一方法就是對關於因果關係的事實進行標注。這些數據集中並不多。但事實是，這些數據可以很容易地合成，通過采樣變量原因-效應和指示方向進行人工標注。

第二，兩個版本的圖像，無論是對象還是背景消隱，都被標準的深度殘留網絡特征化。一些對象和上下文被設計在這些特征之上，作為圖像是否可能是關於對象或其上下文的信號。

aafb6af0d1609d5b77124af77ce663bd9b079f48

最後我們可以將對象和上下文與形象中的因果關係或反作用關聯起來。

通過實驗證明了上述猜想，這個實驗意味著圖像中的因果關係實際上與對象及其上下文之間的差異有關。結果有希望開辟新的研究途徑，因為更好的因果方向的算法在原則上將有助於學習在數據分布發生變化時更好的學習特征。因果關係應該有助於通過了解數據生成過程來構建更強大的功能。

第三個成果：使用無監督輔助任務的強化學習

Reinforcement learning with unsupervised auxiliary tasks[Jaderberg et al。ICLR17]根據現行的標準，本文顯得有點古老，因為在撰寫本文時已經有60篇引文。實際上有一些更新的工作已經建立在這個想法上。我選擇這一點，正是因為它具有新穎的洞察力，而不是基於它來討論更複雜的方法。

第三個成果主角是強化學習。強化學習的研究人員的主要困難是稀缺/延遲獎勵。那麼為什麼不通過引入輔助任務來增強訓練信號呢？當然，偽獎勵必須與真正的目標相關，而不是借助於人類的監督。

這篇論文的建議是：通過輔助任務的性能總和來增加目標函數（最大化的獎勵）。實際上，將有一些模型近似於主要策略和其他完成附加任務的策略；那些模型分享他們的一些參數，例如底層可以共同學習來模擬原始的視覺特征。代理函數必須提高其在獎勵方麵的績效，從而提高輔助任務的表現。

論文探討的輔助任務：首先，像素控製。代理學習是一個單獨的策略，以最大限度地改變輸入圖像上的像素網格。理由是“感知流中的變化通常與環境中的重要事件相對應”，因此學習控製變化是有益的。二，功能控製。訓練該代理以預測策略/價值網絡的某些中間層中的隱藏單元的激活值。這個想法很有意思，因為代理的策略或價值網絡會提取與環境相關的高級功能的任務。三，獎勵預測。代理學會預測即將來臨的回報。這三個輔助任務可以通過從之前的代理經驗的緩衝區經驗回放學習。縮短其他細節，整個方法稱為UNREAL。它被應用在Atari遊戲和Labyrint上學習更快更好的策略。

75fe1cd8a5d814ffc683e5345e7f6531290f4fd6

論文中的最終洞察力在於對像素控製的有效性，而不是簡單地預測具有重建損耗或像素輸入變化的像素。它們都可以被視為視覺自我監督學習的形式。“學習重建隻是導致更快的初步學習，實際上會使得最後的成績更糟。我們的假設是，輸入重建會損害最終的表現，因為它將過多的重點放在重建視覺輸入的不相關部分而不是視覺線索的獎勵。

aaf30be2b766653776d77945d8a5ec385d629f49

第四個成果：Self-Play讓學習過程更快

Intrinsic motivation and automatic curricula via asymmetric self-play[Sukhbaatar et al。arXiv17].我想強調的最後一個論文與上述強化學習輔助任務的想法有關。但是，至關重要的是，不是明確地調整目標函數，而是在一定程度上對代理進行了訓練，以完成自我優化，更簡單的自動完成任務。

通過將代理分解為“兩個獨立的頭腦”，Alice 和Bob，建立了Self-Play的初始階段。論文作者提出Self-Play，假設環境必須可逆或重新設定為初始狀態。在這種情況下，Alice執行一個任務，並要求Bob執行相同操作，等到Alice最終達到我們可觀察的狀態。例如，Alice可以拿起鑰匙，打開一扇門，在某個地方關上燈光和停止，Bob必須遵循相同的行動清單並停在同一個地方。最後，你可以想象，這個簡單的環境的原始任務是在房間裏的一個燈點亮：

e697a9555ae20d406a6ff03c30f5a864222f3ce1

這些任務由Alice設計，迫使Bob學習與環境的互動。而且Alice和Bob有其獨特的獎勵功能：如果Bob在最短的時間內完成，Bob就會得到回報；而當Bob花費更多的時間，同時能夠實現目標時，Alice就會得到回報。這些策略之間的相互作用允許他們“自動構建探索課程”。

他們在星際爭霸的上測試了這個想法，沒有敵人打架。“目標任務是建造海事單位。為此，代理必須遵循具體的操作順序：（i）礦工與工人；（ii）積累足夠的礦物質供應，建造軍營。（iii）軍營一旦完成後，將海洋單位列入其中。代理可以訓練新的工人來進行更快的采礦，或者建造供應倉庫以容納更多的單元。經過200個步驟，代理為每個海軍建造+1。

a8fc34ae8021b23c067edbcd6d655dbb31984864

“由於完全匹配遊戲狀態幾乎是不可能的，Bob的成功隻是基於遊戲狀態，包括每種類型（包括建築物）的單位數量和積累的礦物資源。所以Bob的自我發揮的目的是在盡可能短的時間內與Alice一起製造盡可能多的單位和礦物。在這種情況下，Self-Play真的有助於加速學習過程，並且更好地融合Reinforce +一個更簡單的預訓練的基準方法：

870ce1cc8d2af445e2010b164b27e2fdd19edf08

請注意，情節沒有考慮到預訓練策略所花費的時間。

總結：

無監督學習雖然很難，但是衡量其表現更加困難。在Yoshua Bengio的話中：“我們不知道什麼是好的代表，我們沒有一個很好的定義，即什麼是正確的目標函數，即使衡量一個係統在無人值守學習方麵做得很好。”

事實上，幾乎所有在無監督學習的模型中都使用監督或強化學習來衡量這些特征是多麼有用。

參考

1.[Bojanowski＆Joulin ICML17] Piotr Bojanowski和Armand Joulin，Unsupervised learning by predicting the noise，ICML17。

2.[Bojanowski et al。arXiv17] Piotr Bojanowski，Armand Joulin，David Lopez-Paz和Arthur Szlam，Optimizing the latent space of generative networks，arXiv17。

3.[Jaderberg et al。ICLR17] Max Jaderberg，Volodymyr Mnih，Wojciech Marian Czarnecki，Tom Schaul，Joel Z Leibo，David Silver和Koray Kavukcuoglu，Reinforcement learning with unsupervised auxiliary tasks，ICLR17。

4.[Lopez-Paz et al。CVPR17] David Lopez-Paz，西伯利亞西哈拉，Soumith Chintalah，BernhardSchölkopf和LéonBottou，Discovering causal signals in images，CVPR17。

5.[Louizos et al。NIPS17] Christos Louizos，Uri Shalit，Joris Mooij，David Sontag，Richard Zemel和Max Welling，Causal effect inference with deep latent-variable models，NIPS17。

6.[Matiisen et al。arXiv17] Tambet Matiisen，Avital Oliver，Taco Cohen和John Schulman，teacher-student curriculum learning，arXiv17。

7.[Sukhbaatar et al。arXiv17] Sainbayar Sukhbaatar，Zeming Lin，Ilya Kostrikov，Gabriel Synnaeve和Arthur Szlam，Intrinsic motivation and automatic curricula via asymmetric self-play，arXiv17。

8.[Peters et al。JRSS15] Jonas Peters，PeterBühlmann和Nicolai Meinshausen，Causal inference using invariant prediction: identification and confidence intervals，皇家統計學會雜誌17。

本文由北郵@愛可可-愛生活老師推薦，@阿裏雲雲棲社區組織翻譯。

文章原標題《In search of the missing signals》

作者：Giorgio patrini 任職於UvA-Bosch DELTA實驗室（阿姆斯特丹深度學習技術）的博士後研究員

博客：https://giorgiopatrini.org/

譯者：袁虎審閱：主題曲哥哥

文章為簡譯，更為詳細的內容，請查看原文

最後更新：2017-09-09 23:02:40

2017上半年無監督特征學習研究成果匯總

上一篇：增強學習小白？本文帶你入門了解增強學習

下一篇：北京網站建設中心服務世界500強服務中國500強,

相關內容

熱門內容

最新內容

2017上半年無監督特征學習研究成果匯總

上一篇： 增強學習小白？本文帶你入門了解增強學習

下一篇： 北京網站建設中心 服務世界500強 服務中國500強,

相關內容

熱門內容

最新內容

上一篇：增強學習小白？本文帶你入門了解增強學習

下一篇：北京網站建設中心服務世界500強服務中國500強,