閱讀388 返回首頁    go 機器人


顫抖吧!阿爾法元100-0擊敗阿爾法狗,3天登頂最強圍棋大師!人工智能再迎突破!

導語:隨著人工智能的不斷發展,機器人的高智商已經開始讓人類開始顫抖了。還記得那個曾經打敗李世石和柯潔的機器人阿爾法狗嗎?告訴你一個好消息,最近,它終於被打倒了。壞消息是,打倒它的卻是它的“後輩”——AlphaGoZero!

1

零基礎,不看任何棋譜,三天擊敗世界冠軍

去年,阿爾法狗(AlphaGo)代表人工智能在圍棋領域首次戰勝了人類的世界冠軍,但其棋藝的精進,是建立在計算機通過海量的曆史棋譜學習參悟人類棋藝的。AlphaGo和master接連打敗了韓國頂尖棋手李在石和世界頂級棋手柯潔,隨後宣布退役。

但穀歌的DeepMind公司並沒有停下研究的腳步。倫敦當地時間10月18日,DeepMind團隊公布了最強版AlphaGo,代號AlphaGoZero。它的獨門秘籍,是“自學成才”。和以前的機器人利用人類數據培訓不同,AlphaGoZero不使用任何人類數據,而是通過自我學習。而且,是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。

它第一次讓AI完全脫離人類曆史棋譜,隻通過圍棋規則+“自我對弈”,在2900萬次自我對弈後成長為世界上最強大的圍棋大師。

“人們一般認為機器學習就是關於大數據和海量計算,但事實上AlphaGoZero更多的是依賴算法。”

——DeepMind團隊如是說。

AlphaGoZero的水平已經超過之前所有版本的AlphaGo。在對陣曾贏下韓國棋手李世石那版AlphaGo時,AlphaGoZero取得了100:0的壓倒性戰績。DeepMind團隊將關於AlphaGoZero的相關研究以論文的形式,刊發在了10月18日的《自然》雜誌上。

這篇論文的題目也非常耿直,《MasteringthegameofGowithouthumanknowledge》,直譯是“不需要人類知識就可以成為圍棋大師”,意譯過來大概就是……“人類,我不需要你了”。

2

人工智能的曆史性突破

人工智能的一項重要目標,是在沒有任何先驗知識的前提下,通過完全的自學,在極具挑戰的領域,達到超人的境地。

AlphaGo此前的版本,結合了數百萬人類圍棋專家的棋譜,以及強化學習的監督學習進行了自我訓練。

可是今天,我們發現,人類其實把阿法狗教壞了!

新一代的阿法元(AlphaGoZero),完全從零開始,不需要任何曆史棋譜的指引,更不需要參考人類任何的先驗知識,完全靠自己一個人強化學習(reinforcementlearning)和參悟,棋藝增長遠超阿法狗,百戰百勝,擊潰阿法狗100-0。

達到這樣一個水準,阿法元隻需要在4個TPU上,花三天時間,自己左右互搏490萬棋局。而它的哥哥阿法狗,需要在48個TPU上,花幾個月的時間,學習三千萬棋局,才打敗人類。

根據deepmind團隊的介紹:

1.AlphaGoZero采用了新的強化學習方法,從一個不知道圍棋遊戲規則的神經網絡開始,然後通過將這個神經網絡與強大的搜索算法結合,然後就可以實現自我對弈了。在這樣的訓練過程中,神經網絡被更新和調整,並用於預測下一步落子和最終的輸贏。

2.這一更新後的神經網絡將再度與搜索算法組合,這一過程將不斷重複,創建出一個新的、更強大版本的AlphaGoZero。在每次迭代中,係統的性能和自我對弈的質量均能夠有部分提高。

也就是說,AlphaGoZero不僅發現了人類數千年來已有的許多圍棋策略,還設計了人類玩家以前未知的的策略。

3

人工智能曆史性突破對於人類的意義

通過數百萬次自我對弈,AlphaGo從零開始掌握了圍棋,在短短幾天內就積累起了人類幾千年才有的知識。但AlphaGoZero也發現了新的知識,發展出打破常規的策略和新招,與它在對戰李世石和柯潔時創造的那些交相輝映,卻又更勝一籌。

AlphaGoZero的提升,讓人們看到了利用人工智能技術改變人類命運的突破的機會。

因為,圍棋並不是AlphaGo的終極奧義,他們的目標始終是要利用AlphaGo打造通用的、探索宇宙的終極工具。

最後更新:2017-10-20 10:03:21

  上一篇:go 阿爾法狗再進化!自學三天就可贏過舊版!
  下一篇:go 新阿爾法狗出世,機器人會進化了;平安繼續買買買上海家化;私募百億俱樂部成員達169家;韓寒亭東影業融資3.1億估值20億