481 機器人

絕望！人類玩了4000年的圍棋，原來是瞎玩！阿爾法狗的弟弟阿爾法元來了！自學成才，三天秒殺它哥！

一年前，一隻阿爾法狗橫空出世，它在學習了幾百萬冊人類棋譜後，以4-1打敗了人類世界的圍棋冠軍李世石，震驚世界，由此引發了一係列對於人工智能的討論。

最近，它的弟弟阿爾法元再一次刷新人們的認知，沒看過一本棋譜，自學成才，3天時間，它就以100：0的成績戰勝了哥哥，刷新圍棋領域的排名！

倫敦時間10月18日18：00，研究團隊DeepMind再次在《自然》（Nature）雜誌上發表了一篇關於AlphaGo的文章，稱新一代AI程序AlphaGo Zero（阿爾法元）在沒有任何人類輸入的情況下，可以自學成才。

舊版AlphaGo在今年5月戰勝柯潔後宣布退役，但DeepMind公司仍在繼續研究AlphaGo係列產品，此次發表的論文就是為了推出迄今為止的最強版AlphaGo，代號AlphaGo Zero。

這隻新的阿爾法狗不簡單，它在完全沒有人類幫助的情況下，自學成才。而且，從“一張白紙”到“頂級高手”，它隻需要短短3天時間！

在某種意義上可以說，人類把阿爾法狗教壞了！它再也不需要人類的“教育和幫助”了。

戳視頻，看看Zero到底厲害在哪裏。

不使用人類的圍棋數據，AlphaGo Zero是如何實現自學的呢？那就要先說說Zero與“舊狗”有哪些不同。

舊版Alpha Go需要先學習數百萬份人類棋譜，還要經過幾個月的密集訓練，從而進行自我訓練，實現超越。

新版Zero卻能夠“無師自通”，完全不需要任何曆史棋譜的指引，也不需要人類的任何先驗知識，完全靠自己的強化學習（reinforcement learning）。

研究團隊事先沒有給Zero學習任何人類棋譜，隻告訴它圍棋的規則，就讓它自己在棋盤上下棋，與自己進行對弈，從一次次試驗和失敗中吸取經驗教訓，摸索規律，在實戰中提高棋藝。

另外，Zero使用了單一的神經網絡。此前版本的AlphaGo都是用了兩種神經網絡，一種用來預測下一步棋最好的走法，另一種用來計算，根據這些走法，誰更有可能獲勝。

而Zero把這兩種網絡合二為一，隻讓神經網絡預測獲勝者，從而能夠得到更高效的訓練和評估，就好像讓一個圍棋高手來預測比賽結果一樣。

（Zero強化學習下的自我對弈）

此外，Zero也不再使用快速而隨機的走子方法。打個比方“舊狗”像是走一步看三步、步步為營的棋手，而Zero更像是縱觀全局、成竹在胸的圍棋大師。

DeepMind團隊稱，Zero用更新後的神經網絡和搜索算法重組，隨著訓練加深，係統的表現不斷進步。自我博弈的成績也越來越好。同時，神經網絡也變得更準確。

點擊播放 GIF/1668K

Zero的學習很好地反映了人類棋手學習的過程。像初學者一樣，開始隻是貪婪地想要吃掉對方的棋子。但是經過3天訓練，它就能掌握人類圍棋高手所使用的複雜的技巧，“它重新發現了人類幾千年的知識”，哈薩比斯說。

從下圖可以看出，Zero的勝率一直在提升。3天後能戰勝李世石，21天後能戰勝AlphaGo Master，而40天後，就能超過AlphaGo此前的所有版本。

點擊播放 GIF/252K

Zero更厲害的一點在於，隨著訓練的深入，它不僅棋藝獲得極大提升，而且不再受到人類認知的局限，能夠發現新知識，獨立發現遊戲規則，並且發展新策略，而這些具有創造性的圍棋招式，模仿並完全超越了AlphaGo在與李世石和柯潔對弈時所使用的新技巧。

（AlphaGo幾個版本的排名）

美國的兩位棋手在《自然》雜誌上對Zero的棋局做出點評：它的開局和收官與專業棋手的下法並無區別，它按照基本原則，與人類的走法基本一致，這說明人類幾千年的智慧結晶，看起來並非全錯。但是，Zero中盤的有些走法卻比很詭異。

知社學術圈采訪了美國杜克大學人工智能專家陳怡然教授，他表示：

DeepMind最新推出的AlphaGo Zero……擺脫了對人類標注樣本（人類曆史棋局）的依賴，讓深度學習用於複雜決策更加方便可行。

陳怡然也提出了一個AI領域的科學家和實踐者需要思考的問題：“在未來發展中，我們究竟應該如何看待人類經驗的作用。”

謝菲爾德大學計算機神經科學教授Eleni Vasilaki在接受《衛報》采訪時表示，這樣的技術成就是非常了不起的。但是她也指出，在一些涉及複雜計算和精密度的遊戲中，計算機可以打敗人類，但在其他一些任務中，人工智能還是有較大差距的。

DeepMind團隊的目標是要利用AlphaGo打造通用的、探索宇宙的終極工具。

據哈薩比斯說，無需人類輸入能夠自我學習的技能是打造通用人工智能的一個關鍵步驟，這項技術可以幫助人類解決很多科技難題，比如蛋白質折疊或新材料研發等等。

那麼，你如何看待Zero的自學能力，如何預測人工智能的未來呢？

文章來源：科學哎喲喂，感謝原作者如有侵權請告知刪除謝謝！

主編圈點：如果說AlphaGo打敗李世石讓人看到人工智能超越人類的可能性，那麼AlphaGo Zero的誕生讓我們確定了人類在於人工智能比拚的這個環節人類必然吃個敗仗，如果Zero 都具有自學能力了，那我們人類的想象力估計就有限了。

最後更新：2017-10-20 21:53:07