閱讀205 返回首頁    go 機器人


新紀元!人工智能的裏程碑!100比0完爆阿法狗

今天被一則消息刷爆朋友圈:一篇發表於Nature的人工智能論文,引起轟動。英文題目是《Mastering the game of Go without human knowledge》,直譯為《不使用人類知識掌握圍棋》

這篇論文為何如此重要?它不僅是很多人期盼已久的技術報告,也是人工智能一個新的技術節點。在未來,它將得到很多引用,成為無數AI產業和服務的基礎。

為什麼這麼受到廣泛關注,原來這篇論文是穀歌專門從事深度學習研究的子公司DeepMind發布的,在文中宣布新一代Alpha Go正式誕生,被命名為AlphaGo Zero。

這款新版的AlphaGo有什麼厲害的地方呢?去年阿法狗經過學習人類經驗中的所有棋譜,然後4比1打敗圍棋世界冠軍李世石,今年5月再度以3比0打敗新冠軍柯潔,而一度被業界津津樂道、歎為觀止。

令人更加驚奇的是:如今的新版阿法狗,根本沒有學習一點人類經驗,從空白狀態起,左右互搏、無師自通,三天後,居然100比0打敗了老版阿法狗!

由於從事量化研究,公子今天來聊聊人工智能這個話題。

這款新版的AlphaGo翻譯為阿法元(AlphaGo Zero),這個翻譯挺好的,元者何?君之始年也。一元初始,這款阿法元就是人工智能的新紀元。

他完全從零開始,不需要任何曆史棋譜的指引,不需要參考人類任何的先驗知識,完全靠自己強化學習(reinforcement learning)然後成為一代宗師。

人工智能的目標在於一個能夠具有挑戰性的領域,以超越人類的算法實現超越人類的行為。

此前,阿法狗成為首個在圍棋中戰勝人類世界冠軍的係統。他利用機器學習中的神經網絡算法,使用人類專家下棋的數據進行監督學習訓練,同時也通過自我對弈進行強化學習。

所謂監督學習就是利用一組已知類別的樣本,通過反複訓練,使其達到,能識別給定其他類別過程。舉個不太恰當的例子,相當於一個幼兒園老師拿著兩種或多種顏色的筆,讓小朋友們反複記住該顏色,訓練好後,拿出新的筆讓小朋友判斷出所屬顏色。

阿法狗項目負責人說阿法元遠比阿法狗強大,因為它不再被人類認知所局限,而能夠發現新知識,發展新策略。

在基於強化學習的算法,阿發元不使用人類的數據、指導或規則以外的領域知識做為監督學習,他無師自通,隻需知道規則,通過訓練了一個神經網絡來預測自己的落子選擇,從而擺脫了對人類標注樣本(人類曆史棋局)的依賴,讓深度學習用於複雜決策更加方便可行。

也這證明了人類經驗由於樣本空間(棋局經驗)大小的限製,往往都收斂於局部最優而不自知(或無法發現),而機器學習可以突破這個限製!

我們人類的所有的知識都來自於後天的學習、經驗或感知,但這也是人類的局限所在。

如果過份依賴過去的經驗,比如曾經認為是錯的,遍不敢去碰觸,一朝被蛇咬十年怕井繩;而人工智能則沒有這方麵的負擔,或許全局最優解或在其中。

比如曾經認為是對的,便會繼續發展下去,想一招吃遍天、墨守成規。豈不知世間唯一不變的,就是變化本身。如果無視環境變化,就會陷入局部最優的陷阱中,也就是說在某個時間在某個地點來說是最優的結果,但按動態全局來看,則不是最優的選擇。

阿法狗通過學習人類的棋譜經驗,代表著人類可以找到局部最優解,而阿法元無師自通,摒棄人類經驗,意味著可以找尋全局最優解。

那麼,人類的經驗是無用的嗎?是無知的嗎?是不是很恐怖呢!

愚蠢的人類,你對我的力量一無所知!顫抖吧!

如果未來阿法元能夠自我製定規則,再通過自我學習,是不是沒人類什麼事了?

從科技發展的曆史來看,每次在重點發現之後才覺得人類是多麼無知啊!在牛頓經典力學體係的大廈沒有造起來之前,整個西方世界都被亞裏士多德的物理學統治著。當愛因斯坦最早提出他的廣義相對論的時候,他徹底革新了我們原先對於時間與空間的概念理解。最近探測到引力波信號則證明愛因斯坦預測的準確性,一個嶄新的引力波天文學時代開啟,未來更多宇宙之謎等待揭開!

策略方麵,會中沒有多少操作性,繼續保持與這幾天都一致:以消費、上證50、白馬等防守為主,注意控製倉位,少動為宜,見昨日《劃重點》

資金方麵

融資餘額上一交易日為9948億,較上一日減小4億

量化分析

賺錢效應:

今天漲停家數為34家,跌停家數達3家,漲跌停家數比為11,該數據低於近期平均數,注意控倉!

大盤多空趨勢線指標

上證綜指的趨勢指標,量能繼續減少,量能白線位於黃色均線處,瀕臨多空頭臨界處。注意控倉!

創業板的量能指標繼續縮小,目前處於空頭趨勢,注意控倉

最後更新:2017-10-20 00:01:39

  上一篇:go 害怕錯過“人工智能”的年輕人:上速成班、開公司、進BAT……
  下一篇:go 厲害了!阿爾法狗再進化,“老狗”妥妥被拍在沙灘上啊!