Yann LeCun說是時候放棄概率論了,因果關係才是理解世界的基石
今年9月初,Yann LeCun在Cognitive Computational Neuroscience (CCN) 2017上發表了題為“為什麼大腦能短時間內學習如此多東西?”的演講,在演講中他提到,他已經做好放棄概率論(throw Probability Theory under the bus)的準備。
他認為概率理論隻是一個工具,而非現實或智能係統的基本特征。作為一個工具,它就存在應用領域的限製。就算你的鋸子能夠砍樹,這並不意味著它就能切割鈦。
點擊查看Yann LeCun演講

視頻來源:https://www.ccneuro.org
概率論存在的這個問題與預測的有效性密切相關。首先,請看下麵的gif動圖
從圖中我們可以很明顯看出他們的分布是不同的,但右側顯示的統計測量的方法和結果卻是相同的!換句話說,如果你的預測是基於概率分布所計算出的期望值,那麼你很容易就被騙了。
創建這些分布的方法和我們在深度學習中發現的漸進方法類似,主要使用攝動方法(perturbation method)和模擬退火(simulated annealing)。從這個角度看,如果你想騙過一個統計學家,那麼深度學習方法會是一個非常方便的工具。
在2015年,有一篇很有趣的論文“使用非平衡熱力學進行深度無監督學習”(“Deep Unsupervised Learning using Nonequilibrium Thermodynamics)”寫道,你可以使用統計力學的攝動方法,從根本上重新創建一個從隨機噪音開始的特定分布。也有一個反向擴散的方法可以將噪音回收成原始分布。
圖:我們是基於二維的類似“瑞士卷”分布的數據集上訓練的建模框架。第一行顯示了沿著軌道方向的時間切片。數據的分布(左圖)在經曆高斯擴散後,逐漸轉化為特性-協方差高斯分布(右圖)。中間一行顯示了已經訓練好的反向軌跡對應的時間切片
。一個特性-協方差高斯(左圖)經曆學習後的均值和協方差函數進行高斯擴散後,逐漸還原為最初的數據分布(右圖)。最下麵一行顯示了同樣的逆擴散過程的漂移項
增量攝動(Incremental perturbation)是一個非常強大的工具,很難對其使用統計方法進行處理。攝動方法很重要的一點是它們在非均衡狀態下運行。也就是說,與中心極限定理(Central Limit Theorem)所在的範圍相差還很遠。以上信息讓我們有理由相信:增量攝動法確實可以躲過統計檢測。
然而,如何創建人為分布並不是我們的真正問題。真正的問題在與,整個貝葉斯理論的實踐以及相關的信息理論在非線性領域存在著根本性的缺陷。
Sante Fe複雜性科學研究機構的James Crutchfield最近在新加坡做了一個非常有趣的演講,提到了非線性係統的這些缺陷:
那些在香農熵(Shannon Entropy)或貝葉斯理論中將過去、現在的概率與未來預測聯係起來的方程,在非線性糾纏係統中進行預測時,從本質上說是毫無價值的。相關的論文鏈接(https://csc.ucdavis.edu/~cmg/papers/mdbsi.pdf),這篇論文中的一個圖解讓“貝葉斯們”開始去質疑他們在18世紀的信仰:
圖:圖中描述了將多個貝葉斯網絡推理算法應用於二元分布和三元分布的結果。該算法認為變量X,Y和Z之間不存在相關關係,所以形成了三個獨立的節點。這個算法會出錯其實並不意外:因為二元分布和三元分布不能用有向的無環圖來表示,但這是貝葉斯網絡的基本假設之一。
總而言之,我們隻知道這些非線性係統工作得非常好,但我們對它們一無所知。Crutchfield的發現結果(這可以通過模擬來驗證,不能用邏輯論證)是概率歸納法並不適用於非線性領域。
事實上這確實是複雜和非線性的,但幸運的是,我們已經找到了一絲光明:可以通過綜合措施來消除非線性的影響。因此,概率歸納可以通過類似於使用分段線性段逼近曲線的方法來運行。這聽起來有點瘋狂,但它在特定情況下確實可以運行。然而,這並不是一個萬無一失的方法。
預測係統的研究人員必須提出的問題是:我們能做得更好嗎?我們可以使用純粹的攝動方法而不用概率歸納法嗎?概率歸納法的問題在於它是一種“不成熟的優化”。也就是說這種數學方法中考慮了不確定性。所以當我們使用這種數據方法來預測時,就受到了潛在的不確定性處理機製的影響。
我們的大腦並沒有使用蒙特卡羅抽樣來估算概率,那麼它是怎樣處理不確定性的呢?
它的工作方式和“樂觀交易”處理不確定性的方式相同,也與任何強大且可擴展的係統處理故障的方式相一致。任何強大的係統都假設會發生故障,因為配置有相應的調整機製。我們的大腦在遇到意外的情況時會進行補償標記。它通過攝動方法來學習自我糾正。這也是深度學習係統在做的事情,和概率計算無關。這隻是一大堆“無限小”的增量的調整。
攝動係統可能有點讓人討厭,因為它們像迭代函數係統(IFS)一樣。任何自我迭代或擁有內存的係統都可能成為混沌行為或通用機器的候選對象。我們應該接受現實,這些係統已經脫離了概率方法可分析的範疇。然而,“貝葉斯們”似乎有著無懈可擊的信仰,還在堅持他們的方法是普遍適用的。
這篇Max Tegmark et al.的論文(鏈接:https://arxiv.org/pdf/1606.06737v3.pdf)研究了各種語言之間的點互式信息。注意到這裏馬爾科夫過程(Markov processes)的表現並不好。簡而言之,如果你的預測器是無記憶的,那麼它就不能預測複雜的行為。
然而我聽說有人認為概率歸納法(probabilistic induction)/貝葉斯法則(Bayes rule)在某些領域適用。這樣的領域都有哪些呢?Bernard Sheolkopf準確地告訴了你概率歸納法到底適用於哪些領域(鏈接:https://ml.dcs.shef.ac.uk/masamb/schoelkopf.pdf)。其實就是那些表現出反因果的領域。
簡單地說,由於Y是X(輸入)的原因,所以你可以預測Y。因此實際上,關於在哪裏能夠應用概率歸納法,你得非常小心,即使是對於線性係統也是這樣。所以當我們試著應用概率歸納法區分恐龍、星星、橢圓和叉號時,我們發現我們做不到。為什麼呢?這是因為觀測到的輸入(即X)並不是由這裏的原因(即Y)直接造成的。也就是說Y不是X的分布的原因。更確切地說,這其中有另一種擾動機製造成了這種混淆。
然而如果你掌握了關於這一擾動機製的輸入的信息,那會怎麼樣呢?
你能利用所生成的分布預測輸入嗎?答案顯然是yes!
一篇新的論文研究了顯著性方法(saliency method)的不可靠性。在深度學習網絡中,顯著性用於強調對網絡預測起到最大作用的輸入。它被多次提出以用來解釋網絡的行為。有趣的是,這篇論文展示了對輸入的一個簡單變換(即常數變換)會導致歸因的失敗。
這確實是一個很有趣的發現,同時也揭示了我們對深度學習網絡的因果關係的理解還在嬰兒階段。過分地要求貝葉斯推斷或概率歸納法作為深度學習網絡背後的指導原則隻是一個幾乎沒有什麼證據支撐的假設。概率歸納法從來不是自然的基本準則,因此當用它來解釋複雜係統的時候,應該小心一些。
在這裏我引用Judea Pearl的兩段話,把它們送給你:
回顧過去,我所遇到的最大挑戰是擺脫概率思維並接受兩點:第一,人們並不總是從概率角度思考,而是因果效應的角度思考;第二,因果的思維很難用概率的語言描述,它需要一種屬於它自己的正式的語言。
人們並不使用概率思維,這是事實。
第二段話是關於概率和現實的本質:
我現在把因果關係作為物理現實和人類對現實的理解的根本基石,把概率關係看作是推動我們理解世界的因果機製的表層現象。
這段話揭示了物理學家是怎樣看待熱力學和統計力學之間的關係的。這其中可能會出現的認知偏差是他們不僅僅把那些指標當作是係統的結果,還把他們當作是對係統的解釋。更確切地說,不要用概率論去解釋複雜的非線性現象,如認知過程。更糟的是,不要把概率方法作為機理來構建你的人工智能機器。如果你手頭上的是一個簡單不那麼複雜的問題,你可以隨意使用合適的工具。但盡管你的鋸子能夠砍樹,這並不意味著它就能切割鈦。
反饋循環處於智能的核心地位,這就意味著一個循環依賴的非線性係統。概率理論隻是一個工具,而非現實或智能係統的基本特征。作為一個工具,它就存在應用領域的限製。因此我們應該謹慎使用這一工具作為理解複雜係統的動力。幾十年來人工智能一直艱難前行,也許突破口就在於重新審視和質疑我們自己的科研偏差。
原文發布時間為:2017-11-14
本文作者:文摘菌
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“大數據文摘”微信公眾號
最後更新:2017-11-15 15:34:35