906
機器人
人工智能裏程碑:新AlphaGo Zero橫空出世,徹底擺脫人類
摘要:穀歌人工智能團隊DeepMind宣布,新版AlphaGo——AlphaGo Zero可以隻在了解比賽的規則,且沒有人類指導的情況下自我學習。短短3天,AlphaGo Zero就完勝曾擊敗世界冠軍李世石版本的AlphaGo。
打敗目前人類圍棋最高水平選手才過去不久,DeepMind團隊又宣布了一個在AI曆史上具有裏程碑式意義的重磅消息:新版AlphaGo可以徹底擺脫人類的知識。
10月18日,穀歌人工智能團隊DeepMind團隊在期刊《Nature》上發表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習。
我們在這裏介紹一種僅基於強化學習(reinforcement learning)的算法,沒有超越遊戲規則的人類數據、指導或領域知識。
也就是說,AlphaGo Zero就像人類初學者一樣,隻是了解比賽的規則和比賽的最終目標來自我學習。而作為首個擊敗人類圍棋冠軍的程序,之前版本的AlphaGo是通過分析人類圍棋高手的數千棋局來學習,並在自我對弈中不斷強化。
AlphaGo Zero學到的圍棋知識(圖片來源:DeepMind 論文)
此次的亮點在於,AlphaGo Zero無需人類指導就能讓自己成為自己的老師,並且訓練的時間更短。
短短3天時間,AlphaGo Zero不但從頭開始學習了圍棋,並且擊敗了先前版本的AlphaGo。在與擊敗世界冠軍李世石版本的AlphaGo對弈中,AlphaGo Zero以100:0的比分完勝。
AlphaGo Zero在擊敗AlphaGo Lee之前,進行了了490萬次自我對弈;而AlphaGo Lee的訓練時間則是數月。
團隊甚至表示,僅僅40天後,AlphaGo Zero已經可以在與最先進版本的AlphaGo對弈中獲得90%的勝率了。
AlphaGo Zero和先前版本AlphaGo的表現比較(圖片來源:DeepMind 論文)
此次AlphaGo Zero的出現不僅僅意味著圍棋上的成功,還意味著距離通過創建通用算法來解決科學中的難題又進了一步。
目前深度學習需要大量數據,而數據的獲得成本高昂且難度十分大,有了這項技術後,人類今後將有可能解決更大的挑戰,給人類生活帶來根本性的變化。
DeepMind首席執行官Demis Hassabis承認,以運用這個技術解決實際生活中的許多問題。範圍可以包括預測蛋白質分子的形狀,這也是新藥研發過重的重要一環;還可以設計新材料和進行氣候建模。
最後更新:2017-10-19 09:00:03