閱讀142 返回首頁    go 技術社區[雲棲]


最新信息瓶頸理論,打開深度學習的萬能黑匣子

更多深度文章,請關注雲計算頻道:https://yq.aliyun.com/cloud

InfoBottleneck_2880x1620_2880x1620

隻要你能想到的出,什麼都可以交給萬能的深度學習——聊天、開車、打遊戲、戰勝世界圍棋冠軍——但是,雖然人類創造了它,其內部機製卻像個黑匣子,我們所知甚少,除了隱約知道這種學習係統的設計靈感正是我們自己的大腦。哦對了,如果你對腦科學有所了解的話,大腦也是一個我們所知甚少的黑匣子。
深度學習的機製也和大腦很像。大腦中,神經元激活後會給與其相聯係的神經元發送信號。對深度學習來說,深度神經網絡也有神經元,它們之間的聯係會增強或減弱,讓係統能更好地將具體的輸入信號與更高層次的抽象概念結合起來。例如,如果係統“學習”了成千上萬張小狗的照片,下一張小狗照片裏的像素信息能讓係統識別出,這是一種叫做小狗的動物。這種質的飛躍就是深度學習的魅力所在,也是所謂的人類“智能”的魅力所在。計算機專家們都想搞懂,是什麼樣的內在機製讓深度學習具有這樣的魅力,以及,這與人類大腦解讀信息的機製有多大程度上是相同的。

**從經驗中學習:
**

LearningE_500
深度神經網絡也具有很多層的“神經元”,一層層地傳遞信息,直至與相應的抽象概念所結合的神經元。當係統收到一個輸入信息,每一個激活的人工神經元(圖中標記數字1的神經元)會給下一層特定的神經元傳遞信息,最後得到輸出:“小狗”。

上個月,一個視頻刷爆了人工智能專家的朋友圈,耶路撒冷希伯來大學的計算機科學家及神經科學家 Nafttali Tishby 提出了一種理論。他稱,深度學習網絡具有一種名為“信息瓶頸”的學習過程。早在1999年,他就與兩位合作研究員提出過這個想法,不過當時是在純理論層麵,而現在則有了證明。這個概念的大意是:神經網絡會把輸入信息擠進一個“瓶頸”,過濾多餘信息中的噪音,隻保留與抽象概念最相關的特征信息。在 Tishby 和他學生的實驗中,深度學習過程中的確發生了這種“過濾”過程。
這個概念震動了人工智能研究圈。穀歌研究的 Alex Alemi 也研發過一種方法,將信息瓶頸方法應用在大型深度神經網絡上,他稱 Tishby 的概念為“未來神經網絡研究的重要一步”,不僅能夠解釋為什麼神經網絡能夠如此強大,還是“未來打造新的網絡架構的工具”。
雖然有些研究員懷疑一個概念能否解釋深度學習的強大能力,很多人都表示了支持。例如在穀歌和多倫多大學工作的深度學習先鋒 Geoffrey Hinton 看了 Tishby 的柏林會議視頻後給他發了郵件:“我把視頻看了一萬遍才真的看懂了,不過,如今能聽到有人講一點真正創新的想法,解決一個真正重大的謎題,真的已經很難得。”
Tishby 認為,信息瓶頸不僅適用於算法,也適用於任何一種學習,無論你是機器、人類、還是一隻蝴蝶,“學習中最重要的部分就是遺忘。”正如紐約大學的粒子物理學家 Kyle Cranmer 所說,信息瓶頸理論作為一種普遍的學習原則來說,“聽起來很有道理”。這位粒子物理學家在大型強子對撞機上,使用機器學習分析粒子碰撞。

Naftali_Tishby_LR

瓶頸
早在上世紀80年代,Tishby 就開始思考信息瓶頸的問題。當時 AI 所麵臨的大挑戰是我們人類非常擅長的語音識別問題,Tishby 認為問題的關鍵是相關性:對於一個詞語來說,最相關的特征是什麼?人類在語音識別中麵臨著海量的信息,我們保留的是什麼?我們如何排除不相關的噪音,例如口音、口吃、語調?
Tishby 說:“曆史上很多人都考慮過相關性的問題,但是這麼多年人們都認為信息科學與相關性無關,早在香農的年代就有這種誤解。”上世紀40年代,香農被稱為信息理論之父,以純數學意義上的 1 和 0 將這門學科抽象化。香農認為“信息和語義是無關的”,而 Tishby 現在反對說:“信息理論中,你可以精確定義相關性。”
到90年代,Tishby 和兩位合作者——現在在穀歌工作的 Fernando Pereira 和現在在普林斯頓大學的 William Bialek——將語音識別轉化為了一個數學優化問題。設想一下:數據庫 X 包含了一張小狗照片裏的所有像素信息,而 Y 一個簡化過的數據庫,隻包含“小狗”這個類別信息,也就是說,將 X 盡可能地壓縮,但仍能讓人識別出這是小狗。這是一個非常創新的想法,不過沒用有熱門的殺手級應用。“我照著這個思路再研究了30年,” Tishby 說,“幸運的是,如今深度神經網絡變得如此重要。”

場景、人、臉、耳朵
2010年代,紅火了幾十年的深度學習概念隨著訓練框架和電腦處理器的改善,有了真正的突破。2014年,Tishby 讀到了一篇由物理學家 David Schwab 和 Pankaj Mehta 寫的論文,發現了由 Hinton 發明的深度學習算法,與重歸一化一摸一樣。這種方法可以應用在物理學中,對一個物理係統進行縮小,忽略其細節,來計算其總體狀態。當這種方法應用到一個穩定點狀態的模型時(穩定點意味著係統是分形的,也就是說,無論放大還是縮小,係統都是一摸一樣的),網絡自動使用了類似重歸一化的過程,來計算模型的狀態。
唯一的問題就是,現實世界不是分形的。Cranmer 說:“如果你一直放大,現實世界不會是一個耳朵裏麵還有一個耳朵、還有一個耳朵,而是一個場景裏麵有一個人、人有一個臉、臉上有一個耳朵。所以我不覺得深度學習的成功歸功於重歸一化。”而 Tishby 認為,深度學習和這種放大過程之外還有一個更大的概念。

Noga_Ravid_LR
Naftali Tishby 的研究生學生 Noga Zaslavsky(左)和 Ravid Schwartz-Ziv(右)幫助開發了深度學習的信息瓶頸理論。

2015年,Tishby 和學生提出了深度學習是一個信息瓶頸過程的假設,係統在保留信息所表征目標的同時,盡可能地壓縮信息中的噪音。他們的實驗也證明了信息瓶頸的實際過程。實驗使用了小型的模型,能夠將輸入標記為 1 或 0(我們可以設想,1代表“是小狗”,0代表“不是小狗”)。
大部分深度學習過程所使用的基本算法被稱為“隨機梯度下降”:神經元的激活會在神經網絡中一層層地上傳,到頂層時,激活的模式會與正確的標簽相比較,然後得出結論——“是小狗”或者“不是小狗”。隨著訓練的積累,常見的模式會反映在神經元連結的強度上,網絡就此成為為數據貼標簽的專家。
在 Tishby 的實驗中,他們記錄了深度神經網絡的每一層能保留多少輸入信息,並發現隨著一層層深入,網絡體現出了信息瓶頸理論:Tishby 與 Pereira、Bialek 曾在論文中推導過一個理論極限,代表係統在抽取相關信息時的絕對最佳值,此時係統在能夠準確預測標簽的前提下,盡可能地壓縮輸入信息。
實驗還有一個有趣的發現:深度學習過程包含兩個階段。先是一個短暫的“調試”階段,係統學會為訓練數據貼標簽;然後是較長的“壓縮”階段,係統學會抽象概括。

DeepLearning_5001

階段A:初始狀態。第一層的神經元將輸入信息編碼,在最高層的神經元處於一個近乎隨機的狀態。
階段B:調試階段。隨著深度學習的開始,高層的神經元獲得了關於輸入的信息,能更好地將適合的標簽配給輸入。
階段C:階段轉換。各個層突然改變,開始“遺忘”關於輸入的信息。
階段D:壓縮階段。更高的各個層壓縮對於輸入信息的表征,變得更擅長預測標簽。
階段E:完成階段。最後一層達到了精準與壓縮之間的最佳平衡。

一開始,由於神經元連結學會自我調試、為輸入信息中的模式進行編碼和標簽,係統存儲的信息量會增加,就好像人類的記憶過程。然後,係統從學習過程轉為壓縮過程,開始減少信息量。這是因為在隨機梯度下降的每一次迭代中,訓練數據中的聯係大致上比較隨機,使得係統嚐試不同方向,將神經連結的忽強忽弱地調試。例如,有些小狗的照片可能背景裏有房子,有些背景裏有草地,隨著神經網絡學習各種各樣的照片,可能就會“遺忘”房子和狗的關聯性,因為著另外的照片中並沒有這種關聯。Tishby 和學生們稱,正是這種“遺忘”具體特征的能力,使得係統可以形成抽象概念。
現在還未證實,信息瓶頸理論是否能統領所有的深度學習領域,或者除了壓縮以外是否還有其他的抽象概括方法。哈佛大學的人工智能研究員及理論神經科學家 Andrew Saxe 稱,一些非常大的深度神經網絡貌似不需要明確的壓縮階段,就能很好地抽象概括。不過,信息瓶頸理論所定義的邊界還是優於其他方法。Tishby 和學生最近的實驗調查了信息瓶頸是否適合更大的神經網絡,在一個330,000 個連結的更大型的神經網絡上,來識別6萬個手寫數字,這是測試深度學習算法的通用標準。實驗中同樣可以觀察到理論瓶頸邊界以及兩個不同的深度學習階段,並且比小型網絡中的階段轉換更加明顯。Tishby 說:“我完全相信,這是一個普遍現象。”

人與機器
早期的人工智能先驅們一直想揭開大腦學習的秘密,並進行逆向工程,應用至深度學習中。雖然後來大部分人都遺忘了這條道路,不過現在,隨著機器能力的飛速提升,不少人甚至認為 AI 有可能帶來人類的生存危機,學習與智能的內在機製又成為了人們渴望揭開的謎題。
“Tishby 的研究代表了一個重大前進,打開深度學習的黑匣子。”紐約大學的心理學與數據科學助理教授 Brenden Lake 說,他研究的方向是人類學習與機器學習的相似及差異。不過,他強調說,與機器學習相比,人類的大腦是一個更大、更黑的黑匣子。
成年人大腦的八百六十億神經元之間,大約有幾百萬億個連結,我們在嬰兒時期就學會了比簡單的圖形和語音識別更難的抽象感念。Lake 研究人類兒童如何識別手寫字,發現兒童不像機器一樣必須看過幾千個例子、然後再花時間去抽象概括,兒童實際上隻要又一個例子就能學習,識別出新的手寫字並自己書寫。Lake 及其同事的模型說明,大腦可能將新的字母解構為一係列的筆劃,而筆劃是大腦已經理解的一種概念。“兒童不用把字母看作是某種像素的排列模式,不用以學習一係列特征的方式來學習概念。”
這麼聰明的辦法應該能為 AI 研究人員帶來啟發。Tishby 相信自己的信息瓶頸理論能為人類與機器的研究都做出貢獻。例如,什麼樣的問題可以用人工神經網絡而什麼問題得用真的大腦網絡。Tishby 說,有一些問題“我能消除輸入裏的噪音而不影響分類的能力,這是自然視覺、語音識別。這些也是我們大腦能處理的問題。”

本文由北郵@愛可可-愛生活 老師推薦,阿裏雲雲棲社區組織翻譯。
文章原標題《New Theory Cracks Open the Black Box of Deep Learning》。
譯者:炫,審校:。
文章為簡譯,更詳細的內容,請查看原文

最後更新:2017-09-23 12:32:41

  上一篇:go  雲服務器ECS
  下一篇:go  egg-tablestore