閱讀957 返回首頁    go 機器人


“阿爾法狗”再進化的哲學啟示

關注風雲之聲

提升思維層次

解讀科學,洞察本質

戳穿忽悠,粉碎謠言

導讀

AlphaGo能不依賴人類的知識就學習成功,其關鍵之處在於:圍棋是有確定規則的,是一個“客觀”的遊戲。不需要人主觀評判,機器按行棋規則下,終局就有確定的勝負結果出來。這樣,AlphaGo的學習就不需要人類的幹預,完全可以自動進行海量的實踐。AlphaGo Zero的成功,是自學習方法的突破,也是“實踐檢驗”哲學原理的成功。

前不久,Deepmind在《自然》上發表論文,介紹了“阿爾法狗”(AlphaGo)取得的重大進展。與之前的版本不同,AlphaGo Zero完全不需要人類棋譜,從零開始自學習,隻用3天就以100∶0的壓倒性成績,擊敗曾贏下韓國棋手李世石的那版AlphaGo。

人工智能(AI)與人類的關係,在2016年的AI爆發後備受關注。對於給定規則的博弈問題,AI是需要人類的知識提供“第一推動”,還是可以自己從“元規則”開始反複實踐總結,發展出知識體係,是個有趣的問題。對於像“打磚塊”這樣的簡單遊戲,AI從零知識開始反複試玩,達到超過人類玩家的分數,2015年就實現了。但是圍棋這樣複雜的遊戲,人們還有疑問,也許人類提供一些知識對高水平AI是必需的,從零知識開始也許AI會陷入局部陷阱中出不來。

現在AlphaGo Zero給出了答案:對於AI來說,人類對圍棋的知識積累不是必須的!而且從零知識開始訓練,可以達到更高水平。人類棋譜中有一些“成見”,如一些自以為正確的本能定式下法,其實反而阻止了學習者達到更高水平。AlphaGo Zero從零開始自學習,完全不受人類棋譜的“汙染”,就可以突破“成見”,真正進入自由的天地,達到更高的水平。

AlphaGo能不依賴人類的知識就學習成功,其關鍵之處在於:圍棋是有確定規則的,是一個“客觀”的遊戲。不需要人主觀評判,機器按行棋規則下,終局就有確定的勝負結果出來。這樣,AlphaGo的學習就不需要人類的幹預,完全可以自動進行海量的實踐。AlphaGo Zero的成功,是自學習方法的突破,也是“實踐檢驗”哲學原理的成功。

人類的社會活動或者AI的博弈,需要通過實踐不斷提升效率與表現。實踐總是需要在一定的規則之內進行,這是基礎,就如穩定的社會、現代銀行體係、圍棋的行棋與終局規則。實踐時,人類本能地會借鑒前輩的一些“經驗”作為思考的出發點。學校、政府、公司都有教育體係,正如圍棋AI會學習人類高手的棋譜生成“策略網絡”作為優先選擇。然而這些“經驗”,到底能起什麼樣的作用,值得仔細觀察。

在實踐不足的情況下,參考前人經驗與人類棋譜,顯然是有益的,能夠快速“上手”。但是,在發展遇到瓶頸的時候,可能就會顯出前人經驗的不足,照本宣科會限製思維,無法突破。想取得突破,就需要從本原出發,敢於懷疑,拋棄成見大膽實踐學習,下出“新手”,作出改革。這說明,人類的實踐活動可以借鑒前人的經驗,但是如果有了好的實踐反饋學習框架,完全可以進行揚棄,取得理論突破。中國改革開放的曆程也說明,全社會持續不斷地學習與主動變革實踐,正是社會奮發向上不斷取得突破的哲學基礎。

AlphaGo雖然再次震驚世人,但無須對AI的快速發展和驚人實力感到神傷。目前,AI仍隻是人類的工具,還沒有自己的思維。

背景簡介本文作者筆名陳經,香港科技大學計算機科學碩士,科技與戰略風雲學會會員,微博@風雲學會陳經。文章於2017年10月24日發於環球時報(https://hqtime.huanqiu.com/share/article/a-XCXGBKC0BB521F460EA291),風雲之聲獲授權轉載。

責任編輯:郭尖尖

歡迎關注風雲之聲

知乎專欄:

一點資訊:

今日頭條:

最後更新:2017-10-26 23:08:00

  上一篇:go 《英雄聯盟》機器人、獅子狗新皮膚原畫 化身超能勇士
  下一篇:go 高速“機器人交警”上崗 這些違法行為一個也跑不了