閱讀543 返回首頁    go 機器人


把柯潔虐哭的阿法狗被“新一代”Alpha Go Zero虐死,人工智能也太可怕了!

文 | 孔冰欣

曾經,有(幾)隻“別人家的狗狗”,縱橫棋壇,打遍天下,連連擊敗圍棋界的高手高手高高手,震驚了世界。就連我們的傲嬌星人柯潔老師,在與“地球最強狗狗”對決的過程中,也被狠狠“虐”了一把,心有不甘地留下男兒淚,不得不跑到廁所調整心情,由衷感歎人工智能的強大。

AlphaGo 輝煌史一分鍾速覽

姓名:AlphaGo(Fan,Lee,Master,Zero)

1. 擊敗樊麾

2015年10月,AlphaGo擊敗樊麾,成為第一個無需讓子即可在19路棋盤上擊敗圍棋職業棋手的電腦圍棋程序,寫下了曆史,相關成果在2016年1月發表於Nature。

2. 擊敗李世石

2016年3月,AlphaGo在一場五番棋比賽中4:1擊敗頂尖職業棋手李世石,成為第一個不借助讓子而擊敗圍棋職業九段棋手的電腦圍棋程序,再創曆史。五局賽後韓國棋院授予AlphaGo有史以來第一位名譽職業九段。

3. 排名短暫超越柯潔

2016年7月18日,AlphaGo在Go Ratings網站的排名升至世界第一。但幾天之後被柯潔反超。

4. 化名“Master”橫掃棋界

2016年底至2017年年初,再度強化的AlphaGo以“Master”為名,在未公開其真實身份的情況下,借非正式的網絡快棋對戰進行測試,挑戰中韓日台的一流高手,60戰全勝。

5. 戰勝柯潔,成為世界第一

2017年5月23至27日烏鎮圍棋峰會,最新的強化版AlphaGo和世界第一棋手柯潔對局,並配合八段棋手協同作戰與對決五位頂尖九段棋手等五場比賽,獲取3比零全勝的戰績,團隊戰與組隊戰也全勝。這次AlphaGo的運算資源消耗僅為贏李世石版本的十分之一。在與柯潔的比賽結束後,中國圍棋協會授予AlphaGo職業圍棋九段的稱號。

大家猜得到這開頭,卻想必猜不到後續的發展。一物降一物,這(幾)隻偉大的“狗狗”——AlphaGo(阿法狗)在踩碎了圍棋愛好者的一地玻璃心之後,終於被家族的“新世代”——AlphaGoZero給收拾了。近日,《自然》(Nature)雜誌發表了一篇題為Mastering the game of Go without human knowledge(不使用人類知識掌握圍棋)的論文,詳細介紹了阿法狗的Daddy們、即穀歌DeepMind團隊最新的研究成果:AlphaGo Zero從圍棋小白起步,不需要任何曆史棋譜的指引,更不需要參考人類任何的知識經驗,純靠個人強化學習(reinforcementlearning)和參悟,棋藝力壓家族前輩,成為“真·傳說中的·百戰百勝”,100-0擊潰前任哥哥。

DeepMind的創始人+CEO Demis Hassabis

眼冒金星、智商不夠用的小編,在啃了若幹篇對該論文的解讀後,鬥膽嚐試用“說人話”的方式,盡量深入淺出,先為親愛的讀者們梳理下AlphaGoZero的特點(如有未盡之處,請大家輕拍):

•從零開始學習,不需要任何人類的經驗

•使用更少的算力得到了更好的結果

•發現了新的圍棋定式

•策略網絡和價值網絡成為一個神經網絡

•無需進行隨機推演(Rollout)

……

突破“白板理論”

所謂“白板理論”(Tabula rasa),其實是哲學上的一個著名觀點:嬰兒生下來白板一塊,通過不斷訓練、成長獲得知識和智力。據此,AI 領域的先驅圖靈曾經提出了著名的“圖靈測試”,認為隻要能用機器製造一個類似小孩的 AI,然後加以訓練,就能得到一個近似成人智力,甚至超越人類智力的AI。

現代科學則指出,嬰兒不能算純粹的“白板”,生物億萬年的進化,導致人類幼時初初睜開眼睛,就天然具備“偏愛高熱量食物、餓了就哭鬧引起注意”的本能策略。而和人類嬰兒相比,計算機才是實打實的“白板”,於是,一場新討論開始了:監督學習(Supervised Learning)和無監督學習(Unsupervised Learning),哪種方式更適合讓機器從零開始獲得智能?顧名思義,前者強調要把人類的經驗灌輸給機器,後者強調讓機器自己摸索萬事的規律。(小編打個不是最恰當的比方,前者有點像死記硬背式的教育,後者有點像自由散漫的放養式教育……)

阿法狗超人的棋藝,是建立在計算機海量學習、參悟人類棋譜、棋藝的基礎之上的,就算我們輸了,至少可以聊以自慰:你小子,也別得意,再牛,祖師爺還是我們人類!可是,AlphaGoZero,乃無監督學習的產物。通過幾天的訓練——包括近500萬局自我對弈——AlphaGoZero便上了天,分分鍾“秒殺”人類不算,還打敗之前所有的AlphaGo版本(包括監督學習的版本)。敲黑板劃重點:據悉,達到這樣驚人的水準,AlphaGoZero用的時間比前任阿法狗短得多了!一個花了幾天工夫,另一個則花了幾個月的工夫。更可怕的是,隨著程序訓練的進行,AlphaGoZero獨立發現了人類用幾千年的時間才總結出的圍棋規則,且建立了新的戰略,為古老的遊戲帶來全新的見解。

這說明了什麼問題?說明“你好,人類”“再見,人類”,把“人類”甩了的計算機,貌似反而進步得更快。人類的智慧與經驗,好像已經顯得多餘、“拖後腿”了。

柯潔評價:

對於alphago的自我進步來講

人類太多餘了

紮心,淚目……

算法改進,讓AlphaGoZero更強

由於在硬件和算法上的進步,AlphaGo變得越來越有效率

如上圖所示,由於在硬件和算法上的進步,“AlphaGo”係列變得越來越有效率。優秀的算法不僅僅能降低能耗,也能極大提高效率。另外,這也表明圍棋問題的複雜度並不需要動用大規模的計算能力,那是浪費。

Deepmind博客介紹,AlphaGo Zero采用了新的強化學習方法,從一個不知道圍棋遊戲規則的神經網絡開始(如前文所述,“白板”),然後通過將這個神經網絡與強大的搜索算法結合,實現自我對弈了。在這樣的訓練過程中,神經網絡被更新和調整,並用於預測下一步落子和最終的輸贏。

這一更新後的神經網絡將再度與搜索算法組合,這一過程將不斷重複,創建出一個新的、更強大版本的AlphaGo Zero。在每次迭代中,係統的性能和自我對弈的質量均能夠有部分提高。最終的神經網絡越來越精確,AlphaGo Zero也變得更強。

感興趣的朋友們,可自行搜索論文原文,進行深度學習。(小編怕再說下去,就誤人子弟遭群毆了……)

對於人工智能的發展,我們期待能用來幫助人類攻克諸如蛋白質折疊、製造出治療疑難雜症的藥物、減少能源消耗、尋找革命性的新材料等等重大難題與挑戰。有專家表示,“目前,人工智能和人甚至動物相比,所知所能依然有限……不要盲目追逐流行的東西,要審時度勢,踏實做積累,看準了坑再跳”;此外,“機器經驗與人類經驗有很大差別,我們該如何去選擇和利用呢?”

總結,現在,人類應該還不用擔心被人工智能“滅”了,未來如何,則尚待定論。不過,人類的智慧也好,機器的智慧也好,我們肯定“智慧”本身,而把“智慧”用在什麼地方,是比“智慧”本身更複雜的命題。希望一切的“智慧”,都可以讓生活變得更美好吧——這也許是非常天真的想法,而我們情願這麼想。

然而對AI取代人類的焦慮,卻也已經是全球化的了。

轉載請後台聯係周刊君,獲得授權!

轉載時,須注明作者、出處和微信號。

最後更新:2017-10-20 21:41:05

  上一篇:go 絕望!人類玩了4000年的圍棋,原來是瞎玩!阿爾法狗的弟弟阿爾法元來了!自學成才,三天秒殺它哥!
  下一篇:go 人工智能分析央行總裁麵部表情?日本學者首次用AI預測金融政策