閱讀377 返回首頁    go 技術社區[雲棲]


AlphaGo Zero:從頭開始學習

更多深度文章,請關注雲計算頻道:https://yq.aliyun.com/cloud


人工智能研究在語音識別和圖像分類再到基因組學和藥物發現等各個領域都取得了快速進展。但在許多情況下,這些都是利用大量人力資源和龐大的數據支撐才完成的專業工作。

然而,對於某些問題,知識和數據的成本太高,太不可靠或者根本無法使用。因此,AI研究的長期目標是繞開這個困境,創造算法,在沒有人工投入的情況下,挑戰最具挑戰性的領域實現超越人類的表現。在我們最近發表在Nature雜誌上論文,我們展示了實現這一目標的一個小小的進步。

58e475c94cbfeb6dd5866678f2e20e256e43dfa5

本文介紹了最新發展AlphaGo版本的AlphaGo zero,AlphaGo是第一個在圍棋的古代中國遊戲打敗世界冠軍的計算機程序。AlphaGo是強大的,但是AlphaGo zero是更強大的,可以說是曆史上最強的圍棋玩家。

7b0d699444c9ada69328acdfa159bceee2c8cb6f

以前版本的AlphaGo最初是接受了數千業餘和專業人的遊戲訓練,學習如何玩圍棋。而AlphaGo Zero跳過這一步,整個學習過程是通過自己玩遊戲,從完全隨機的遊戲開始。這樣做的時候,它很快超過了人類的水平,而且還擊敗了以前發布的冠軍版本的AlphaGo。

AlphaGo zero通過使用一種新穎的強化學習方法,AlphaGo Zero成為自己的老師。AlphaGo zero從一個不知道圍棋遊戲的神經網絡開始,然後,通過將這個神經網絡與強大的搜索算法相結合,自身與自身進行遊戲。當它自己與自己下棋的過程中,神經網絡被不斷的調整和更新,以預測下一手以及最終的贏家的布局。
然後將這個更新完畢的神經網絡與搜索算法重組,創建一個新的、更強的AlphaGo版本的AlphaGo Zero,並且讓過程再次開始。在每次迭代中,AlphaGo zero係統的性能都會提高一小部分,自我遊戲的質量也提高了,這導致了越來越精確的神經網絡和更強的AlphaGo Zero版本時代的出現。

這個版本的AlphaGo zero比以前版本的AlphaGo更強大,因為它不再受到人類知識的限製。相反,它還可以從世界上最強的玩家:AlphaGo那裏學習。

它也有不同於以前的版本在其他方麵。

·              AlphaGo Zero僅使用圍棋棋盤上的黑白石頭作為輸入,而AlphaGo的以前版本包含少量手工設計。

·              它使用一個神經網絡而不是兩個。AlphaGo的早期版本使用“策略網絡”來選擇下一手的落點以及一個“價值網絡”來預測落在每個位置遊戲的獲勝的概率。這兩個網絡被完美的結合在AlphaGo Zero中,這使其能夠進行更有效地進行訓練和評估。

·              AlphaGo Zero不使用其他圍棋程序使用的快速隨機遊戲來預測玩家將子落在何處才能獲勝。相反,它依靠其高質量的神經網絡來評估位置。

所有這些差異都有助於提高係統的性能並使其更為通用。而且,算法的改變使得係統更加強大和高效。

dd023bbef1348316e9e832ea0556073e9e1e4925

經過短短三天的自我訓練,AlphaGo Zero就打敗了以前發布的AlphaGo版本經過40天的自我訓練,AlphaGo Zero變得更強大,超越稱為“大師”的AlphaGo版本,AlphaGo大師版本是擊敗了世界上最好的圍棋選手及世界排名第一的柯潔

80ccd9b5ff47fada2c51a4fce4cbe2c7749eacda

在數以百萬計的AlphaGo和AlphaGo對戰中,係統從零開始逐漸學習了圍棋遊戲,在短短幾天的時間裏積累了數千年的人類知識。同時,AlphaGo Zero還發現了新的知識,開發非常規的策略和創新了新舉措,它超越了在與李世石和柯潔的比賽中所發揮的新技術。

e5f5097087765b1e37a0fa47164e5f7925da42d1

這些創造力的瞬間使我們相信,人工智能將成為人類智慧,幫助我們與我們的使命,解決一些人類正麵臨著最重要的挑戰。

雖然這些還在早期,但AlphaGo Zero是邁向這一目標的關鍵一步。如果可以將類似的技術應用於其他結構化問題,如蛋白質折疊,減少能源消耗或尋找革命性的新材料,這些突破將對社會產生積極的影響。

a3b2bd84bc1c238e2d2d78cde8b26b2d24645976

大衛·席爾瓦:AlphaGo項目首席研究員在接受采訪時所說

f8b05609c991885bbe809bb873e80d745d955a28

AlphaGo Zero是世界上最強大的圍棋程序,勝過以往所有的AlphaGo版本。尤其值得一提的是,它擊敗了曾經戰勝世界圍棋冠軍李世石的AlphaGo版本,成績為100比0。過去所有版本的AlphaGo都從利用人類數據訓練開始,它們被告知人類高手在這地方怎麼下,在另一個地方怎麼下。AlphaGo Zero不使用任何人類數據,而是自我學習,完全從自我對弈中學習,憑借自我學習取得比通過人類數據學習更好的成績是因為,首先AlphaGo的對手總是和它正好水平一致,所以它從非常基礎的水平開始,從非常隨機的招式開始。但是在學習的過程中每一步,它的對手或者可以叫陪練,都正好被校準為匹配其當前水平。一開始,這些對手非常弱,但是之後漸漸變得越來越強大,人們一般認為機器學習就是關於大數據和海量計算。 但是,我們從AlphaGo Zero中發現,算法比所謂計算和數據可用性更重要。事實上,我們在AlphaGo Zero上使用的計算比在過去AlphaGo版本上使用的少一個數量級,但是它的性能更強大,因為我們使用了更多原理和算法,我可以代表我們的團隊說,我們對它的表現感到驚喜,它最終超過了我們的所有預期。它的勝率一直上升,直到過了40天左右,我們發現它擊敗了過去所有版本的AlphaGo,成為世界上最強大的圍棋程序。該全係統完全從零開始訓練,從隨機招式開始,建立於基本原理,來弄清怎樣從零學圍棋,AlphaGo Zero最重要的理念是它完全從零開始學習,它意味著它完全從一塊白板開始,僅僅依靠自我對弈來學習,不依賴於任何人類知識,人類數據,人類案例,人類特征,或是人類的介入,。它完全通過基本原理去探索任何下圍棋,從零學對於DeepMind的目標和雄心而言是非常重要的,

因為如果你可以實現從零學習,你就擁有了可以從圍棋,移植到其他任何領域的媒介,你從所處的細分領域中解放出來,通過一個可以應用於在任何地方的普遍算法。對於我們來說打造AlphaGo不是為了出來擊敗人類, 而是為了探索研究科學的意義和讓一個程序能夠自我學習知識是什麼?所以我們開始發現,AlphaGo Zero不僅僅是重新發現,人類偏好的模式和開口以及人類在角落用固定模式,它還會審視這些並進行更多的自主探索,最終放棄那些偏好來自主做出人類還不知道或無法實現的變化,所以我們可以說真正發生的是在非常短的時間內,AlphaGo Zero理解了人類數千年積累的對圍棋的認知,它進行分析,開始審視這些知識,並自主探索出更多的東西,有時候它的選擇實際上超越並帶來的一些人類現階段尚未發現的東西,產生出在很多方麵富有創造力的,新奇的知識,對於AlphaGo Zero已經達到的水平,我們非常激動,最讓我們激動的是看它能在現實世界裏走多遠,事實上我們已經看到一個程序可以在像圍棋這樣的,複雜並具有挑戰性的領域中達到很高水平,這意味著我們能夠開始著手為人類解決最困難的問題。

從零開始的訓練

DeepMind發表的論文中寫到,應用了強化學習的pipeline來訓練AlphaGo Zero,訓練從完全隨機的行為開始,並在沒有認為幹預的情況下持續3天。

訓練過程中,生成了490萬盤自我博弈對局,每個MCTS使用1600次模擬,相當於每下一步思考0.4秒。下圖顯示了在自我對弈強化學習期間,AlphaGo Zero的表現。整個訓練過程中,沒有出現震蕩或者災難性遺忘的困擾。

令人驚訝的是,AlphaGo Zero在訓練36小時後,表現就優於擊敗李世石的版本AlphaGo Lee。當年那個版本經過了數月的訓練。AlphaGo Zero使用了4TPU,而擊敗李世乭的AlphaGo使用了48TPU

AlphaGo Zero這種完全不依賴於人類數據的創新是有其根本因素的,因為圍棋的下法是有一定的規則的,隻要是在規則之內AlphaGo Zero自己可以和自己模擬,進行創造新的下法。舉例來說:一個學生學習了基礎知識之後,可以利用這些基礎知識解決一係列複雜的問題,但是這些複雜得多問題其實還是限製於這些基礎知識不斷組合上,一旦超出了基礎知識的界限,那麼學生就不會做題了。這就是當前版本的AlphaGo Zero的核心。但是,不得不承認的是,這種方式極大的釋放了人工智能在圍棋領域的創造性,人類可以從中獲得更多。

AlphaGo Zero證明了純強化學習的方法是可行的,注意這裏的純強化學習其實強化的是基礎,這跟我們人類的思維是相通的。Deepmind團隊也稱,AlphaGo zero對結構化知識的領域更適用,其實與其說是結構化,不如說成是規則化。因為如果說結構化的話,那麼文本翻譯也屬於結構化,但是這個領域沒有標注化,它還是需要大量數據來支撐的。

論文的共同第一作者是David SilverJulian SchrittwieserKaren Simonyan

關於這篇論文,可以直接從這個地址下載

DeepMind還放出AlphaGo Zero80局棋譜,下載地址在此

本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織整理。

文章原標題:《AlphaGo Zero-learning-scratch

作者:

b12f5704b2e4ec708332e78342d4446afd167458

譯者:虎說八道,小學生一枚。審校:主題曲哥哥。

文章為簡譯,更為詳細的內容,請查看原文

最後更新:2017-10-23 10:34:34

  上一篇:go 雲棲玖著 委實難得一見!在杭州竟然還有這樣的139㎡小排!
  下一篇:go  阿裏展示首個IDC智能機器人 實現人機合作