608
機器人
人工智能太可怕了,新AI自學三天完爆阿法狗100-0
在圍棋比賽上,人工智能程序AlphaGo橫掃世界頂尖棋手的事情,早已不是新聞。但人們聊以慰藉的是,AlphaGo是在大量學習了人類棋譜後,才慢慢“封神”。這一認知現在也被改寫。
10月19日淩晨,在國際學術期刊《自然》(Nature)上發表的一篇研究論文中,穀歌下屬公司Deepmind報告新版程序AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,並以100:0的戰績擊敗“前輩”。
有專家告訴我們,“拋棄人類經驗”和“自我訓練”並非AlphaGo Zero最大的亮點,其關鍵在於采用了新的reinforcement learning(強化學習的算法),並給該算法帶了新的發展。
點擊播放
GIF/1668K
AlphaGo Zero習得知識的過程
此外,有專家表示,應理性看待AlphaGo Zero。Deepmind的論文一發表,TPU的銷量就可能要大增了。其100:0戰績有“造”真嫌疑。
該論文稱,在數百萬局自我對弈後,隨著程序訓練的進行,AlphaGo Zero獨立發現了人類用幾千年才總結出來的圍棋規則,還建立了新的戰略,為這個古老的遊戲帶來新見解。
《自然》為該論文配發兩篇評論文章,一篇來自計算機科學家,一篇來自圍棋選手。
世界頂尖棋手的養成,動輒需要數十年的訓練、磨礪。但AlphaGo Zero創造了一個紀錄:3天。
AlphaGo Lee是AlphaGo Zero的“前輩”。它擁有48個TPU(神經網絡訓練專用芯片),在參考大量人類棋譜,並自我對弈約3000萬盤、訓練數月後,2016年3年月,AlphaGo Lee以4:1的擊敗韓國九段棋手李世石,引發人們關注。
AlphaGo Zero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。但它以100:0的戰績擊敗前輩。
點擊播放
GIF/185K
AlphaGo-Zero的訓練時間軸
Deepmind公司詳解了AlphaGo Zero的更多不同之處,在識別棋盤盤麵時,它直接識別黑白棋子,而非要將圖像分類;它僅使用一張人工神經網絡,此前的兩張被合二為一。
但更大的革新之處在於,AlphaGo Zero采用了新的算法——強化學習算法。在每一次訓練後,AlphaGo Zero都能根據訓練結果,進一步優化其算法。
上海交通大學計算機科學領域的一位教授告訴我們,他認為,AlphaGo Zero發展了強化學習(Reinforcement Learning)算法。受到AlphaGo Zero的啟發,該算法可能應用在更多的“求解”類問題上。
他將強化學習的算法比作“摸著石頭過河”。他描述了“求解”類問題的共同特征:這些問題的求解,都要分很多步驟才能完成,整個過程相對漫長,但在結束後,可以根據結束時的狀態,來評判此前每一步決策的質量。像蛋白質折疊的預測,新材料的設計等,都屬於此類問題。
他表示,“求解”類問題相對簡單,它們不同於我們人生中的選擇,人生中的每個決定不太容易評價其決策質量。
上海紐約大學計算機科學教授張崢表示,從算法上來說,AlphaGo Zero比其“前輩”更簡潔、漂亮。這一次,AlphaGo Zero擺脫了人為的大數據,在人類給定的一個規則下,自主發現新知識,並且糾正人類的錯誤知識,而且是以驚人的速度達到這一點。有趣的是,AlphaGo Zero卻無法解釋(它是如何完成這一切的),隻能demo(樣本)給人類。
張崢表示,AlphaGo Zero等人工智能及地球上的計算能力是否窮盡搜索了圍棋盤麵的各種可能,他不清楚,但AlphaGo Zero等人工智能一定比人更快,而且有新的發現。換句話說,會產生新的棋譜。
中國科學院自動化研究所複雜係統管理與控製國家重點實驗室任主任王飛躍表示,大家應該理性看待AlphaGo Zero的研究成果。Deepmind公司的這一論文一發表,TPU的銷量可能就要大增了。他說,AlphaGo的程序的確越來越簡潔、有效。但那種“看了AlphaGo Zero,就認為人類經驗沒用了,人工智能已經超過人類智力”的觀點不正確。
他認為,在所有“規則界定得非常清楚,而且規則中包含了所有信息”的任務中,機器或程序都應超過人類。正如汽車會跑得比人快,飛機會飛得比人高。而人工智能在應用中麵臨更多挑戰的是那些規則不清,或者規則清楚但不包含所有信息的事情。在軍事國防,社會經濟,特別是日常生活的很多應用場景都是這樣,人為界定出來的規則可以非常簡化,但無法確定所有信息,比如交通規則。這時候,人工智能會做一個好的安全且有效決策嗎?
王飛躍表示,真正智能的是AlphaGo Nothing,即人類,為定規則而生。而機器是為執行而造的。
此外,他認為,AlphaGo Zero 以100:0的成績,戰勝AlphaGo Master,其結果十分令人鼓舞,但有誤導,且有"造"真的嫌疑。“這讓我想起成語‘自相矛盾’。”
來源:澎湃新聞,本文信息僅供參考,不代表本微信號觀點,投資有風險,入市需謹慎。
最後更新:2017-10-20 00:16:28