475
機器人
自學40天,100:0碾壓“前任”,新版“阿爾法狗”讓人類顫抖了
當地時間10月18日,穀歌人工智能團隊Deep Mind團隊在著名學術期刊Nature發表論文,宣告了人工智能一個新紀元的誕生。
圍棋世界冠軍、少年天才柯潔甚至感歎,“人類太多餘了”。
那麼,到底是什麼樣的厲害成就,讓少年心高的棋士柯潔都佩服地如此“甘拜下風”呢?
原來,最新版本的阿爾法零(AlphaGo Zero,又譯“阿爾法元”)戰勝了所有“前輩”,其中包括以100比0的懸殊比分碾壓曾戰勝李世石的AlphaGo版本,成為當今世界上最厲害的圍棋程序。
如果光是這樣,你可能覺得這消息還不夠轟動。但阿爾法零絕不是簡單的進化版本而已。
每日經濟新聞(微信號:nbdnews)記者注意到,之前的AlphaGo版本都是通過學習以前的人類經典棋局提高自己的棋力,並存儲有幾百萬盤棋譜。
而阿爾法零則完全沒有學習任何人類知識,僅靠自我對弈,“左右互搏”來學習提高,就在40天內超越了人類幾百年來的圍棋知識積累。
這一“從零到巔峰”的突破,也被譽為人工智能領域目前最偉大的進步之一。
新版阿爾法零完虐老版本
英國《電訊報》指出,阿爾法零隻是被人類教會如何下圍棋,此外便沒有給出任何額外的指令。相反,隨著時間的推移,阿爾法零學會了如何下出最好的圍棋走法,而這僅僅是通過與自己對弈490萬次而達成。
柯潔敗給AlphaGo(圖片來源:電訊報)
經過3天的訓練,阿爾法零就以100:0的比分贏下了李世石版AlphaGo,並且隻用了1台機器和4個TPU(穀歌研發的芯片)。
而李世石版AlphaGo則用了48個TPU。阿爾法零除了獨立地學會了人類花費數千年時間來發現的圍棋規則,還自行學會了非常有趣的圍棋策略,並且許多走法都“極具創造性”。
AlphaGo的效率越來越高(圖片來源:DeepMind)
那麼阿爾法零是如何實現這種飛躍的?
每日經濟新聞(微信號:nbdnews)記者注意到,阿爾法零采用的是人工神經網絡。這種網絡可以計算出下一步走棋的可能性,估算出下棋選手贏的概率。隨後根據計算,阿爾法零會選擇最大概率贏的一步去下。
整個訓練過程中,並沒有人類參與,全程是阿爾法零自我學習,自我對弈。在訓練過程中,阿爾法零每下一步需要思考的時間是0.4秒。但正是通過對圍棋遊戲的模擬和訓練,神經網絡變得越來越好。
阿爾法零從0到72小時的自學成長圖(圖片來源:DeepMind 論文)
創始人:AI可以解決現實難題
穀歌深度學習聯合創始人兼CEO德米斯·哈比斯(Demis Hassabis)表示,阿爾法零這個項目之所以如此強大,是因為它“不再受限於人類知識的局限”。
圖片來源:DeepMind官網
哈比斯還相信,如果將這個項目應用到治療像老年癡呆症這樣重大的健康問題上的話,那麼在幾周內,就能找到治愈人類需要花費幾百年時間才能找到的療法。
“我們希望利用這種算法突破,來幫助解決各種緊迫的現實世界問題。
如果類似的技術可以應用到其他問題上,例如減少能源消耗或尋找新材料,那麼取得的突破就具有推動人類的理解的潛力,並對我們的生活產生積極影響。”
德米斯·哈比斯(圖片來源:Youtube)
其實,穀歌的深度學習團隊已經開始使用阿爾法零來研究蛋白質折疊,並承諾稱將很快發表新的研究發現。錯誤折疊的蛋白質可以導致包括老年癡呆症、帕金森病和囊性纖維化等許多致命疾病。
每日經濟新聞(微信號:nbdnews)記者注意到,近年來,越來越多的科技公司先後進入健康領域。去年,微軟便宣布計劃在10年內攻克癌症。穀歌旗下的部門也在調查延長人類壽命甚至停止衰老的方法。
每經記者 蔡鼎
每經編輯 王嘉琦 鄭直
點擊播放
GIF/428K
本文為|每日經濟新聞nbdnews原創文章|
未經許可禁止轉載、摘編、複製及鏡像等使用
最後更新:2017-10-20 09:33:10