閱讀559 返回首頁    go 汽車大全


看穿機器學習(W-GAN模型)的黑箱


0?wx_fmt=png


640?wx_fmt=png

圖a. Principle of GAN.


前兩天紐約暴雪,天地一片蒼茫。今天元宵節,長島依然清冷寂寥,正月十五鬧花燈的喧囂熱鬧已成為悠遠的回憶。這學期,老顧在講授一門研究生水平的數字幾何課程,目前講到了2016年和丘成桐先生、羅鋒教授共同完成的一個幾何定理【3】,這個工作給出了經典亞曆山大定理(Alexandrov Theorem)的構造性證明,也給出了最優傳輸理論(Optimal Mass Transportation)的一個幾何解釋。這幾天,機器學習領域的Wasserstein GAN突然變得火熱,其中關鍵的概念可以完全用我們的理論來給出幾何解釋,這允許我們在一定程度上親眼“看穿”傳統機器學習中的“黑箱”。下麵是老顧下周一授課的講稿。



生成對抗網絡 GAN

訓練模型 生成對抗網絡GAN (Generative Adversarial Networks)是一個“自相矛盾”的係統,就是以己之矛克以己之盾,在矛盾中發展,使得矛更加鋒利,盾更加強韌。這裏的矛被稱為是判別器(Descriminator),這裏的盾被稱為是生成器(Generator)。



640?wx_fmt=png

圖b. Generative Model.


生成器G一般是將一個隨機變量(例如高斯分布,或者均勻分布),通過參數化的概率生成模型(通常是用一個深度神經網來進行參數化),進行概率分布的逆變換采樣,從而得到一個生成的概率分布。判別器D也通常采用深度卷積神經網。

0?

圖1. GAN的算法流程圖。


矛盾的交鋒過程如下:給定真實的數據,其內部的統計規律表示為概率分布0?,我們的目的就是能夠找出0?。為此,我們製作了一個隨機變量生成器G,G能夠產生隨機變量,其概率分布是0?,我們希望0?盡量接近0?。為了區分真實概率分布0?和生成概率分布0?,我們又製作了一個判別器D,給定一個樣本,D來複製判別這個樣本是來自真實數據還是來自偽造數據。Goodfellow給GAN中的判別器設計了如下的損失函數(lost function), 盡可能將真實樣本判為正例,生成樣本判為負例:

0?

第一項不依賴於生成器G, 此式也可以定義GAN中的生成器的損失函數。

                           

在訓練中,判別器D和生成器G交替學習,最終達到納什均衡(零和遊戲),判別器無法區分真實樣本和生成樣本。


優點 GAN具有非常重要的優越性。當真實數據的概率分布不可計算的時候,傳統依賴於數據內在解釋的生成模型無法直接應用。但是GAN依然可以使用,這是因為GAN引入了內部對抗的訓練機製,能夠逼近一下難以計算的概率分布。更為重要的,Yann LeCun一直積極倡導GAN,因為GAN為無監督學習提供了一個強有力的算法框架,而無監督學習被廣泛認為是通往人工智能重要的一環。


缺點 原始GAN形式具有致命缺陷:判別器越好,生成器的梯度消失越嚴重。我們固定生成器G來優化判別器D。考察任意一個樣本0?,其對判別器損失函數的貢獻是

0?

兩邊對0?求導,得到最優判別器函數

0?

代入生成器損失函數,我們得到所謂的Jensen-Shannon散度(JS)

0?

在這種情況下(判別器最優),如果0?的支撐集合(support)交集為零測度,則生成器的損失函數恒為0,梯度消失。


改進 本質上,JS散度給出了概率分布0?之間的差異程度,亦即概率分布間的度量。我們可以用其他的度量來替換JS散度。Wasserstein距離就是一個好的選擇,因為即便0?的支撐集合(support)交集為零測度,它們之間的Wasserstein距離依然非零。這樣,我們就得到了Wasserstein GAN的模式【1】【2】。Wasserstein距離的好處在於即便0?兩個分布之間沒有重疊,Wasserstein距離依然能夠度量它們的遠近。


為此,我們引入最優傳輸的幾何理論(Optimal Mass Transportation),這個理論可視化了W-GAN的關鍵概念,例如概率分布,概率生成模型(生成器),Wasserstein距離。更為重要的,這套理論中,所有的概念,原理都是透明的。例如,對於概率生成模型,理論上我們可以用最優傳輸的框架取代深度神經網絡來構造生成器,從而使得黑箱透明。


最優傳輸理論梗概


給定歐氏空間中的一個區域0?,上麵定義有兩個概率測度0?0?,滿足

0?,

我們尋找一個區域到自身的同胚映射(diffeomorphism),0?, 滿足兩個條件:保持測度和極小化傳輸代價。


保持測度 對於一切波萊爾集0?,

0?

換句話說映射T將概率分布0?映射成了概率分布0?,記成 0?。直觀上,自映射0?,帶來體積元的變化,因此改變了概率分布。我們用0?0?來表示概率密度函數,用0?來表示映射的雅克比矩陣(Jacobian matrix),那麼保持測度的微分方程應該是:0?,

0?

這被稱為是雅克比方程(Jacobian Equation)。


最優傳輸映射 自映射0?的傳輸代價(Transportation Cost)定義為

0?

在所有保持測度的自映射中,傳輸代價最小者被稱為是最優傳輸映射(Optimal Mass Transportation Map),亦即:

0?,

最優傳輸映射的傳輸代價被稱為是概率測度0?和概率測度0?之間的Wasserstein距離,記為0?


在這種情形下,Brenier證明存在一個凸函數0?,其梯度映射

0?

就是唯一的最優傳輸映射。這個凸函數被稱為是Brenier勢能函數(Brenier potential)。


由Jacobian方程,我們得到Brenier勢滿足蒙日-安培方程,梯度映射的雅克比矩陣是Brenier勢能函數的海森矩陣(Hessian Matrix),

0?

蒙日-安培方程解的存在性、唯一性等價於經典的凸幾何中的亞曆山大定理(Alexandrov Theorem)。


640?wx_fmt=png

圖2. 亞曆山大定理。


亞曆山大定理  如圖2所示,給定平麵凸區域640?wx_fmt=png,考察一個開放的凸多麵體640?wx_fmt=png,選定一個麵640?wx_fmt=png640?wx_fmt=png的法向量記為640?wx_fmt=png640?wx_fmt=png的投影和640?wx_fmt=png相交的麵積記為640?wx_fmt=png,則總投影麵積滿足

640?wx_fmt=png

凸多麵體可以被640?wx_fmt=png確定。亞曆山大定理對任意維凸多麵體都成立。


後麵,我們可以看到,這個凸多麵體就是Brenier勢能函數,其梯度映射將一個概率分布640?wx_fmt=png映到另外一個概率分布640?wx_fmt=png,並且這兩個概率分布之間的Wasserstein 距離對偶於此凸多麵體決定的體積。理論上,這個凸多麵體可以作為W-GAN模型中的生成器G。



W-GAN中關鍵概念可視化


Wasserstein-GAN模型中,關鍵的概念包括概率分布(概率測度),概率測度間的最優傳輸映射(生成器),概率測度間的Wasserstein距離。下麵,我們詳細解釋每個概念所對應的構造方法,和相應的幾何意義。


概率分布 GAN模型中有兩個至關重要的概率分布(probability measure),一個是真實數據的概率分布0?,一個是生成數據的概率分布0?。另外,生成器的輸入隨機變量,滿足標準概率分布(高斯、均勻分布)。

0?

    圖3. 由保角變換(conformal mapping)誘導的圓盤上概率測度。


概率測度可以看成是一種推廣的麵積(或者體積)。我們可以用幾何變換隨意構造一個概率測度。如圖3所示,我們用三維掃描儀獲取一張人臉曲麵,那麼人臉曲麵上的麵積就是一個概率測度。我們縮放變換人臉曲麵,使得總曲麵等於0?。然後,我們用保角變換將人臉曲麵映射到平麵圓盤。如圖3所示,保角變換將人臉曲麵上的無窮小圓映到平麵上的無窮小圓,但是,小圓的麵積發生了變化。每對小圓的麵積比率定義了平麵圓盤上的概率密度函數。


我們可以將以上的描述嚴格化。人臉曲麵記為0?,其上具有黎曼度量0?。平麵圓盤記為0?,平麵坐標為0?,平麵的歐氏度量為0?。保角映射記為

0?

0?,這裏麵積變換率函數0?給出了概率密度函數。0?誘導了圓盤0?上的一個概率測度0?



0?

圖4. 兩個概率測度之間的最優傳輸映射。


最優傳輸映射 圓盤上本來有均勻分布0?,又有保角變換誘導的概率分布0?,則存在唯一的最優傳輸映射0?。圖4顯示了這個映射0?,中間幀到右幀的映射就是最優傳輸映射。我們看到,鼻尖周圍的區域被壓縮,概率密度提高。



0?

圖5. 離散最優傳輸。


離散最優傳輸映射 最優傳輸映射的數值計算非常幾何化,因此可以直接被可視化。我們將目標概率測度離散化,表示成一族離散點,0?;每點被賦予一個狄拉克測度,0?,滿足0?。然後,我們求得單位圓盤的一個胞腔分解,0?,每個胞腔0?映到相應的目標點0?0?。映射保持概率測度,胞腔的麵積等於目標測度,

0?,

同時極小化傳輸代價,

0?


0?

圖6. 離散Brenier勢能函數,離散最優傳輸映射。


離散Brenier勢能 離散最優傳輸映射是離散Brenier勢能函數的梯度映射。對於每一個目標離散點0?,我們構造一個平麵 0?,這裏平麵的截距0?是未知變量。這些平麵的上包絡(upper envelope)構成一個開放的凸多麵體,恰為離散Brenier勢能函數0?的圖(Graph),

0?

圖6左側顯示了離散Briener勢能函數。凸多麵體在平麵上的投影構成了平麵的胞腔分解,凸多麵體的每個麵0?被映成了一個胞腔0?;每個麵0?的梯度都是0?,因此Brenier勢能函數的梯度映射就是0?


根據保測度性質,每個胞腔0?的麵積應該等於指定麵積0?。由此,我們調節平麵的截距0?以滿足這個限製。根據亞曆山大定理,這種截距存在,並且本質上唯一。


離散Wasserstein距離 我們和丘成桐先生建立了變分法來求取平麵的截距0?。給定截距向量0?,平麵族為0?,其上包絡構成的Briener勢能函數為 0?, 上包絡的投影生成了平麵的胞腔分解0?, 胞腔的麵積記為0?。我們定義的能量為,

0?,

這個能量在子空間0? 上是嚴格凹的,其唯一的全局最大點就給出了滿足保測度條件的截距。這個能量的非線性項,實際上是上包絡截出的柱體體積,

0?

圖7給出了柱體體積的可視化,柱體體積0?是凸函數。


0?

圖7. 離散Brenier勢能函數的圖截出的柱體體積0?


體積函數0?和Wasserstein距離之間相差一個勒讓德變換(Legendre Transformation)。勒讓德變換非常幾何化,我們可以將其可視化。給定一個定義在實數軸上的二階光滑凸函數0?,其圖0?是一條凸曲線,這條凸曲線由其所有的切線包絡而成。如果,在任意一點0?,函數的切線的斜率為y,則此切線的截距滿足

0?

這被稱為是函數0?的勒讓德變換。0?以切線的斜率為參數,以切線的截距為函數值。


0?

圖8.凸函數的圖像由其切線包絡而成,切線集合被表示成原函數的勒讓德對偶。



因為0?的凸性,映射0?是微分同胚,記為0?。那麼,原函數和勒讓德變換後的函數滿足關係:

0?,

這裏c,d是常數。原函數和其勒讓德變換的直觀圖解由圖9給出。我們在xy-平麵上畫出曲線0?,曲線下麵的麵積是0?,曲線上麵的麵積是勒讓德變換0?


0?

圖9. 圖解勒讓德變換。


勒讓德變換的幾何圖景對任意維都對。我們下麵來考察體積函數0?的勒讓德變換0?。根據定義,

0?,

假如我們變動截距0?,或者等價地變動胞腔麵積0?,考察兩個胞腔交界處0?

0?,

p本來屬於0?,變化後屬於0?,所有這種點的總麵積為0?。則為Wasserstein距離帶來的變化是:

0?

因此,總的Wasserstein距離的變化是

0?

由此我們看到Wasserstein距離等於

0?

其非線性部分是柱體積的勒讓德變換。


總結
通過以上討論,我們看到給定兩個概率分布0?,則存在唯一的一個凸函數(Brenier 勢函數)0?,其梯度映射0?把一個概率分布0?映成了另外一個概率分布。這個最優傳輸映射的傳輸代價就給出了兩個概率分布之間的Wasserstein距離。Brenier勢能函數,Wasserstein距離都有明晰的幾何解釋。



在Wasserstein-GAN模型中,通常生成器和判別器是用深度神經網絡來實現的。根據最優傳輸理論,我們可以用Briener勢函數來代替深度神經網絡這個黑箱,從而使得整個係統變得透明。在另一層麵上,深度神經網絡本質上是在訓練概率分布間的傳輸映射,因此有可能隱含地在學習最優傳輸映射,或者等價地Brenier勢能函數。對這些問題的深入了解,將有助於我們看穿黑箱。


640?wx_fmt=png

圖10. 基於二維最優傳輸映射計算的曲麵保麵積參數化(area preserving parameterization),蘇政宇作。

640?wx_fmt=png

640?wx_fmt=png

圖11. 基於三維最優傳輸映射計算的保體積參數化 (volume preserving parameterization),蘇科華作。

原文發布時間為:2017-02-19

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號


最後更新:2017-05-24 17:33:51

  上一篇:go  看我如何發現Uber合作方網站XXE 0day漏洞並獲得9000美元賞金
  下一篇:go  圖解數據科學領域的職位劃分以及職責技能