749
機器人
100:0無師自通被完爆,阿爾法狗成為過去,是算法讓“新狗”成為最強
圍棋界曾有這麼一位鬥士…
剛剛出世,就以4:1的成績戰勝韓國高手李世石九段;隨後一波60連勝,宣告著征服人類最為精妙的遊戲。2017年5月,麵對帶著天才光環的現世界第一棋手柯潔九段,3:0強勢碾壓。Alphago這位初出茅廬的“毛頭小子”,在圍棋界大殺四方,短短一年時間,打敗無數人類高手,5月比賽後,它宣布退役,自此再無消息。
英國時間10月18日18點(北京時間19日淩晨1點),AlphaGo 再次出現在《自然》雜誌的封麵,而這次100:0的數字不再是它的勝利。最新的AlphaGo Zero在對陣曾贏下韓國棋手李世石那版AlphaGo時,以100:0的壓倒性戰績獲得勝利,經過40天的自我訓練,AlphaGo Zero又打敗了AlphaGo Master版本。“Master”曾擊敗過世界頂尖的圍棋選手,甚至包括世界排名第一的柯潔。“新王”就此誕生。
代號AlphaGo Zero 的最強版AlphaGo ,是DeepMind團隊最新傑作。它的獨門秘籍,是“自學成才”。而且,是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。
相較於之前的版本,AlphaGo Zero的能力有了質的提升。最大的區別在於它不再需要人類數據。也就是說,它一開始就沒有接觸過人類棋譜。研發團隊隻是讓它自由隨意地在棋盤上下棋,然後進行自我博弈。
功耗上也有極大的突破,前代需要多台機器和48個TPU(穀歌專為加速深層神經網絡運算能力而研發的芯片)支持,經過多月訓練方才戰勝人類棋手,而新版的Zero隻用到了一台機器和4個TPU,極大地節省了資源。
人工智能從0到1
據AlphaGo團隊負責人大衛·席爾瓦(Dave Sliver)介紹,AlphaGo Zero使用新的強化學習方法,讓自己變成了老師。係統一開始甚至並不知道什麼是圍棋,隻是從單一神經網絡開始。DeepMind團隊在官方博客上稱,Zero用更新後的神經網絡和搜索算法重組,隨著訓練地加深,係統的表現一點一點地在進步。自我博弈的成績也越來越好,同時,神經網絡也變得更準確。
隨著自我博弈的增加,神經網絡逐漸調整,提升預測下一步的能力,最終贏得比賽。更為厲害的是,隨著訓練的深入,DeepMind團隊發現,AlphaGo Zero還獨立發現了遊戲規則,並走出了新策略,為圍棋這項古老遊戲帶來了新的見解。
自學3天,就打敗了舊版AlphaGo
除了上述的區別之外,AlphaGo Zero還在3個方麵與此前版本有明顯差別。
首先,AlphaGo Zero僅用棋盤上的黑白子作為輸入,而前代則包括了小部分人工設計的特征輸入。
其次,AlphaGo Zero僅用了單一的神經網絡。在此前的版本中,AlphaGo用到了“策略網絡”來選擇下一步棋的走法,以及使用“價值網絡”來預測每一步棋後的贏家。而在新的版本中,這兩個神經網絡合二為一,從而讓它能得到更高效的訓練和評估。
第三,AlphaGo Zero並不使用快速、隨機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預測哪個玩家會從當前的局麵中贏得比賽。相反,新版本依靠地是其高質量的神經網絡來評估下棋的局勢。
算法的改變成就“新狗”
我們不難看出,以上這些不同幫助新版AlphaGo在係統上有了提升,但算法的改變讓係統變得更強更有效。
算法(Algorithm)是指解題方案的準確而完整的描述,是一係列解決問題的清晰指令,算法代表著用係統的方法描述解決問題的策略機製。也就是說,能夠對一定規範的輸入,在有限時間內獲得所要求的輸出。不同的算法可能用不同的時間、空間或效率來完成同樣的任務。
李開複博士曾經說過,算法是計算機科學領域最重要的基石之一,從AlphaGo的這次升級中,更加明確了算法的重要性。青少年學習編程需要學習算法嗎?我們的答案是肯定的。
達內童程童美集合優秀師資,創新研發編程數學課程,針對1-6年級學生,用“程序案例”的創新型數學輔導課程,以圖形化語言為輔助,將編程作為工具的數學培訓,實現數學思維與編程思維完美結合,快速掌握學習數學的技巧,讓應試教育素質化。
學習編程數學學生會在那些方麵有所提升呢?
通過不同類型的程序案例實現數學的動畫演示、動手實操和編程算法,幫助學生加深對數學概念和方法的理解,回歸數學問題的本質,不僅僅是做題,而是通過可視化的編程揭示數學問題的本質,把握數學問題的邏輯思維。同時讓學生理解程序算法並學會簡單的編程技巧,而不是簡單的敲代碼,注重數學邏輯與專業編程算法的有機融合,擴充知識並訓練思維!
最後更新:2017-10-20 00:10:39