斯坦福“黑盒學習”研究:使用神經變分推理的無向圖模型,可替代“采樣”
機器學習中的許多問題可以自然地用無向圖模型的語言表達。在這裏,我們提出了無向模型的黑箱學習和推理算法,優化了模型的對數似然的變分近似。我們的方法的核心是我們表示為靈活神經網絡的函數q參數化配分函數的上限。它在學習過程中使得配分函數成為可能,加速采樣,並通過統一的變分推理框架來訓練各種混合有向/無向模型。我們經驗性地證明了我們的方法在幾個流行的生成建模數據集上的有效性。
介紹
機器學習中的許多問題可以自然地用無向圖模型的語言表達。無向圖模型用於計算機視覺、語音識別、社會科學、深度學習等其他領域。許多基本的機器學習問題都以無向模型為中心,然而,這類分布的推理和學習會帶來很大的計算挑戰。
在這裏,我們嚐試通過針對無向概率圖模型P的新變分推理和學習技術來解決這些挑戰。我們方法的核心是,無向概率模型P的對數劃分函數的上限是由一個近似分布q來表示的,我們表示為一個靈活的神經網絡。當q = p時,我們的界是緊密的,對q感興趣的類在q的參數中是凸的。最有趣的是,它導致了對數似然函數log p的下限,這使得我們能夠在一個類似於黑盒變分推理的變分框架中擬合無向模型。
我們的方法相比以前的方法有了許多優點。首先,它能夠以黑箱方式訓練無向模型,即我們不需要知道模型的結構來計算梯度估計(例如,如在吉布斯采樣中那樣)。相反,我們的估計隻需要評估模型的非標準化概率。在q和p聯合優化時,我們的界也提供了一種在學習過程中跟蹤配分函數的方法。在推理時,從我初始化的MCMC鏈(或者它本身可以提供樣本)的無向模型中,學習的近似分布q可以用來加速采樣。此外,我們的方法自然地集成了最近的有向圖模型的變分推理方法。我們預計我們的方法將在自動化概率推理係統中最為有用。
作為我們如何使用這些方法的一個實例,我們研究了不同類別的混合有向/無向模型,並展示了如何在一個統一的黑箱神經變分推理框架中對它們進行訓練。那些混合模型已經在早期的深度學習文獻中很流行,並從神經科學的原理中獲得靈感。它們對相同數量的變量也具有較高的建模能力。相當有趣的是,我們確定了設置使模型也更容易訓練。
實驗
對近似分布可視化
我們訓練了限玻爾茲曼機(RBM)模型,對q的每一步執行兩個梯度步驟。上圖顯示了混合伯努利q的每個組分的平均分布; 人們可以在其中區分各種數字的形狀。這證實q確實接近於p。
加速無向模型的采樣
模型完成訓練後,我們可以用近似q來初始化一個MCMC采樣鏈。 由於q是p的粗略近似,因此產生的鏈應該混合得更快。為了證實這個想法,我們在隨機初始化的吉布斯(Gibbs)抽樣鏈(頂部)以及從q(底部)樣本初始化的鏈中繪製相鄰圖形樣本。後一種方法在幾個步驟中看起來的數字似乎是可信的,而前者產生樣本是比較模煳的。
相關研究
其實,我們的研究主要啟發於對變分自編碼器和相關模型的黑盒變分推理,其中,涉及對由神經網絡參數化的近似後驗概率進行擬合。而我們的研究為無向模型提供了類似的方法。廣泛應用的無向模型包括受限深度玻爾茲曼機(Restricted and Deep Boltzmann Machines)以及深度信念網絡(Deep Belief Networks)。而與我們的研究最為接近的就是離散的VAE模型。然而,Rolfe試圖對p(x|z)進行有效的優化,而RBM的先驗p(z)是使用PCD進行優化的。在我們的研究中是使用標準技術來對p(x|z)進行優化的,並且將著重關注p(z)。
更普遍地來講,我們的研究提出了一種替代性方法,可以替代基於采樣的學習方法,而大多數無向模型的變分方法都是以推理為中心的。我們的方法可以擴展到中小型數據集,並且在混合有向/無向生成式模型(hybrid directed-undirected generative models)中最為有用。它的速度可與PCD方法媲美,並能夠提供附加的益處,如分區函數追蹤(partition function tracking)和加速采樣。最重要的是,我們的算法是黑盒式的,並且在不需要知道模型結構的情況下就可以推導出梯度或進行分區函數評估。我們預期我們的方法將在諸如Edward這樣的自動推理係統中最為有用。
另外,我們方法的可擴展性局限性主要在於,當q與P不能進行很好的擬合時,對梯度和分區函數進行蒙特卡羅評估中的高方差。在實際中,我們發現諸如擬似然(pseudo-likelihood)這樣的簡單度量法在診斷這個問題上是非常有效的。當用RBM先驗對深度生成模型進行訓練時,我們注意到弱q的引入模型崩潰了(但是訓練仍然收斂)。然後我們通過增加q的複雜性並使用更多的樣本解決了這些問題。最後,我們還發現q梯度的得分函數評估器不能很好地向較高的維度擴展。而更好的梯度評估器可能會進一步改進我們的方法。
結論
綜上所述,本文提出了新的無向模型的變分學習和推理算法,從重要抽樣和χ2散度最小化的角度出發,優化了配分函數的上限。我們的方法通過黑匣子的方式訓練無向模型,並將在自動推理係統中產生作用。我們的框架在速度方麵與采樣方法相比具有競爭性,並且提供了額外的優點,如配分函數跟蹤和加速采樣。我們的方法也可以用來訓練使用統一變分框架的混合有向/無向模型。最有趣的是,它使具有離散潛變量的生成模型更具表現力和更容易訓練。
原文發布時間為:2017-11-12
本文作者:Volodymyr Kuleshov、Stefano Ermon
本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號
原文鏈接:斯坦福“黑盒學習”研究:使用神經變分推理的無向圖模型,可替代“采樣”
最後更新:2017-11-13 10:34:13
上一篇:
Andrej Karpathy:神經網絡是“軟件2.0”,而非機器學習的一種工具
下一篇:
國科大本科生以第一作者身份發表AAAI論文,用神經網絡分析三維模型
三星 Galaxy S8、iPhone 7、華為 Mate9 Pro 基帶被黑客攻破
《iOS6 application development》學習之路:No.2
Python實現簡單爬蟲功能
如何遷移RDS中的加密存儲過程
TechCrunch?????????????????????????????????70hr??????????????????????????????AI??????-??????-????????????-?????????
判斷用戶輸入的數字是一個合法的電話號碼的正則表達式
劍指Offer之麵試位運算總結
Android異步下載圖片並且緩存圖片到本地
setTimeout和setInterval的使用
遞歸求漢諾塔