閱讀436 返回首頁    go 機器人


阿爾法狗閉關5月後歸來秒殺所有人類棋手,下個對手是誰?

文| AI財經社 王鴻宇

編|楊舒芳

10月19日,穀歌旗下的DeepMind團隊公布了進化後的最強版“阿爾法狗” ,代號AlphaGo Zero。DeepMind聯合創始人兼CEO 、阿爾法狗之父戴密斯·哈薩比斯稱,“升級後的阿爾法狗更為強大,可以一爭史上最強圍棋手。”

阿爾法狗上一次出現在公眾視野中,還是今年5月在浙江烏鎮圍棋峰會的現場。阿爾法狗直落三盤戰勝世界排名第一的中國棋手柯潔,這位年僅20歲的天才少年曾被認為是狙擊阿爾法狗的唯一可能。

“我輸得沒什麼脾氣。”在賽後新聞發布會上,柯潔說,“AlphaGo跟去年比完全是兩個‘人’,第一次時很接近人,現在越來越像上帝了。”

就連戴密斯·哈薩比斯都沒有想到阿法爾狗能達到這樣的高度,“寫出圍棋的評估函數是一件不可能的事情”。因為更多時候,圍棋與棋手的一些類似於“直覺”的東西有關,“圍棋遊戲更像是藝術,而非科學”。

不少網友嘲笑柯潔,因為他曾經此前說過“阿爾法狗能贏下李世石,但是未必能贏我”,“和阿爾法狗下棋,我的勝率在六成”類似的話語。但在與阿爾法狗戰敗後,柯潔豪取22連勝,大家才意識到不是柯潔說大話,而是阿爾法狗太強了。

第一次升級後,就未嚐敗績

正如柯潔所言,阿爾法狗的確換了一個“人”——係統升級後,AlphaGoLee變成了AlphaGoMaster。

在野狐圍棋網橫掃中日韓多位人類圍棋高手後,它取得了60勝0負1平的恐怖戰績。其中的1平,還是因為在與陳耀燁的快棋賽中,陳耀燁意外掉線,係統自動判和。

2016年3月,AlphaGoLee以4:1的比分了戰勝韓國名將李世石九段,引發了圍棋圈的震驚。此前,阿爾法狗的成名戰是5:0戰勝歐洲冠軍、法國國家隊主教練樊麾,但當時,樊麾和外界都認為阿爾法狗並沒有那麼強,至少他是有機會拿下一盤的。

“圍棋有很多不確定的因素,機器的局限性是很多的,在下棋過程中也會出現漏洞,因此之前觀看阿爾法狗跟樊麾的比賽,讓我以為計算機達不到圍棋選手的最高水平。結果大家都知道,我輸了。”慘敗讓李世石改變了他對阿爾法狗的看法。

《南方周末》的報道中提到:阿爾法狗對陣樊麾時,“吃過”的棋譜是3000萬個,但到了挑戰世界棋壇16冠王李世石的時候,嚼進肚子裏的棋譜已經達到1億。

“吃棋譜”正是AlphaGo的主要訓練模式之一,開發者能做的就是盡可能多地把棋譜塞給程序。

此外,Deep Mind團隊在AlphaGo程序中加入了“策略網絡”和“值網絡”的技術。所謂策略網絡,是指程序在吃下過億棋譜後,能夠分析出下一步棋在不同下法時得出的不同勝率。值網絡則是對盤麵優勢的判斷機製,以便及時止損和改變下法。

學習3天打之前版本,比分高達100比0

在輸給阿爾法狗後,柯潔豪取22場連勝,拿下全運會圍棋比賽冠軍。但再次升級的阿法爾狗,已經不需要柯潔的棋譜了。

根據《自然》雜誌的最新介紹,Alpha Zero的設計理念和係統配置和Lee/Master完全不同。

此前,Lee/Master都是用上千盤人類業餘和專業棋手的棋譜進行訓練,而升級後的阿爾法狗不依托於人類的先驗成果,不靠“吃棋譜”進步,完全靠自我對弈學習下棋。

AlphaGo Zero之所以能當自己的老師,是用了一種叫強化學習的新模式。係統從一個對圍棋一無所知的神經網絡開始,將該神經網絡和一個強力搜索算法結合,自我對弈。在對弈過程中,神經網絡不斷調整、升級,預測每一步落子和最終的勝率。

僅僅經過3天的訓練,這套係統已經可以擊敗AlphaGoLee,也就是去年擊敗韓國頂尖棋手李世石的那套係統,而且比分高達100比0。

40天訓練後,AlphaGo Zero總計運行了大約2900萬次自我對弈,使得AlphaGoZero得以擊敗AlphaGoMaster,比分為89比11。

在係統配置方麵,AlphaGoZero也比前幾代係統更加節能,AlphaGoLee需要使用幾台機器和48個穀歌TPU機器學習加速芯片,AlphaGoZero隻需要使用一台配有4個TPU的機器即可。

阿爾法狗贏了李世石後,哈薩比斯說,“阿爾法狗從來都不是我們的唯一,甚至不是我們最重要的研發,我們希望將此應用於更大的真實世界的問題。”升級過後融入了Deep Mind最新技術的新阿爾法狗,目標已經不再隻是打敗人類棋手,而是將目光轉向了實際應用方麵。

【想看更多,請移步“AI財經社(ID:aicjnews)”微信公眾號】

最後更新:2017-10-20 09:30:03

  上一篇:go 主播有畫說3 帥炸,我的四川!大飛機、機器人,都有四川造!
  下一篇:go “轟炸”整個金融圈,阿爾法狗再傳大消息!背後暗藏……