830
機器人
阿爾法狗再進化:自學3天就100:0碾壓李世石版舊狗
關鍵時刻,第一時間送達
編譯 / 金鹿
總部位於英國倫敦的穀歌旗下人工智能(AI)實驗室DeepMind與美國當地時間周三(18日)宣布,已經對其最著名的AI程序AlphaGo進行了顯著改進。AlphaGo是一種算法,它因在中國古代圍棋中擊敗人類冠軍而名聲大噪。現在,它已被重新改進,並重新編程為一種名為AlphaGo Zero的AI程序。
圖1:DeepMind AlphaGo項目首席研究員大衛o西爾弗(David Silver,左)與首席執行官德米斯o哈比斯(Demis Hassabis)
DeepMind首席執行官德米斯·哈比斯(Demis Hassabis)在穀歌英國總部表示,AlphaGo Zero比AlphaGo“強大得多”。圍棋是一款簡單的遊戲,但同時又非常複雜。雖然隻有幾條規則,但每步棋有很多可能的走法,這些可能性甚至比宇宙中原子的數量還要高得多。經過3天的訓練,AlphaGo Zero就以100:0的比分完勝對陣李世石的那版AlphaGo。
最初的AlphaGo已經給人留下深刻印象,但它依然無法與AlphaGo Zero相媲美。在接受3天訓練後,AlphaGo於去年3月份在韓國擊敗了世界圍棋冠軍李世石(Lee Sedol)。經過40天訓練後,它擊敗了AlphaGo Master,後者曾在今年5月份成功擊敗現任世界冠軍柯潔。哈比斯說,在短短幾天內,AlphaGo Zero實際上已經獲得了人類數千年積累的知識,同時也發現了新的知識、圍棋策略以及創意性的新棋路。
點擊播放
GIF/86K
在沒有人類幫助下,
AlphaGo Zero自學如何下圍棋
老版AlphaGo AI與AlphaGo Zero之間的主要區別在於,前者通過吸收人類數據學習下棋,而後者則不需要。之前所有的AlphaGo AI都是從網站上下載人類數據(業餘和職業圍棋)開始訓練的。它們觀看了數千場比賽,並被告知人類專家在某些位置上的特定動作。但是,AlphaGo Zero並不使用任何人類數據。相反,AlphaGo Zero通過與自己對弈學會了如何玩圍棋,完全是“無師自通”。
DeepMind AlphaGo項目首席研究員大衛·西爾弗(David Silver)解釋了AlphaGo Zero是如何從零開始學習的。他說:“AlphaGo Zero使用了一種新的強化學習形式,在這一過程中,它成為了自己的老師。我們的想法是,它的起點是一個對圍棋一無所知的神經網絡,它會與自己進行數千場對弈。它所走的每一步棋就是把這個神經網絡與強大的搜索算法結合起來,然後用它來選擇下一個動作。”
西爾弗繼續稱:“在每場對弈結束後,AlphaGo Zero實際上都訓練了一個新的神經網絡。它改進了自己的神經網絡,預測AlphaGo Zero自己的棋路,同時也預測了這些遊戲的贏家。當AlphaGo Zero這樣做的時候,實際上會產生一個更強大的神經網絡,這將導致‘玩家’進行新的迭代。因此,我們最終得到了一個新版AlphaGo Zero,它比之前的版本更強大。而且隨著這個過程不斷重複,它也可以產生更高質量的數據,並用於訓練更好的神經網絡。”
這並不是AI研究人員第一次編寫沒有學習人類數據的算法。今年8月份,美國科技大亨伊隆o馬斯克(Elon Musk)斥資10億美元支持成立的AI研究公司OpenAI透露,它已經開發出了一款AI,可以在沒有任何人工輸入的情況下,自學如何玩電腦遊戲《Defense of the Ancients》。
AlphaGo Zero使用的計算能力也比AlphaGo之前的版本要少得多,這表明,算法的進步遠比計算能力或數據進步更重要。AlphaGo Zero是一項重大突破,它為DeepMind的研究贏得了更大的聲譽。在AI研究領域,讓機器在某些任務中成為“超人”,而不是為它們提供人類數據進行訓練始終是一項長期存在的挑戰。由於人類數據太昂貴、太不可靠或根本無法獲取,從而導致AI研究進展緩慢。
西爾弗曾被美國主流網絡媒體BI稱為穀歌DeepMind的無名英雄,他補充道:“由於不使用這些人類數據、特性或專業技術,我們實際上已經消除了人類知識的局限性。因此,AlphaGo Zero能夠從最初的原則,從空白石板中創造知識,並製定出自己的策略,以及自己獨特的下棋方式。這使它能夠比以前的版本強大得多。”
當被問及DeepMind使用了多少資金開發AlphaGo時,哈比斯表示,這個數字“可能相當可怕”,很難量化。大約有15名DeepMind頂級員工年薪在六位甚至七位數以上,他們已經全職研發AlphaGo很長時間,而且該公司使用了大量的穀歌計算能力。
點擊播放
GIF/86K
機器還遠不及
好萊塢電影中所描繪的那樣
盡管AlphaGo Zero的突破令人印象深刻,但值得注意的是,研究人員還遠沒有研究出像好萊塢電影中描述的那些AI,比如《機械姬》(Ex-Machina)或《她》(Her)。如今的AI程序通常可以在單個任務(比如遊戲)中勝出,但是它們很難同時完成多個任務,特別是當這些任務處於不同的領域時。
然而,DeepMind現在正在研究如何將與AlphaGo Zero相同的算法應用到真正的科學挑戰中,比如蛋白質折疊、降低能耗、尋找新材料或發現新藥。哈比斯表示:“我們正在努力建立通用學習算法,而這隻是向前邁出的一步,但它的確令人感到興奮不已。AlphaGo團隊許多成員現在正在開發其他項目,並試圖將這項技術應用到其他領域。”
最後更新:2017-10-19 13:09:23