閱讀45 返回首頁    go 機器人


人工智能不僅能玩遊戲戰勝人類高手 還能通過遊戲自我訓練

AI成為熱點,許多企業和學術機構都在研究。為了解決AI問題,訓練算法,研究將目光轉向遊戲,因為它是完美的AI測試平台。《經濟學人》最近刊文,深入解讀這一現象。

去年,普林斯頓大學計算機科學家Artur Filipowicz碰到了一個問題,一個與停車標誌有關的問題。當時Filipowicz正在傳授汽車新技能,讓它看見、解釋世界,這樣一來汽車就可以自己行駛,不需要協助。要達成目標,首先汽車必須具備識別停車標誌的能力。最終,Filipowicz博士想訓練一個合適的算法。所謂訓練,就是向算法展示大量圖片,裏麵有許多的停車標誌,出現在許多不同的環境中:有老標誌,有新標誌,有清晰的標誌,有弄髒的標誌;還有一些標誌被卡車或者大樓遮擋一部分;有些標誌出現在日光環境中,或者是雨天,霧天;有些標誌出現在白天,黃昏或者夜晚。

要從圖片庫中獲得所有類似的圖片並不是一件容易的事。如果進入真實世界,讓人親自拍攝,無疑是一件冗長乏味的事。Filipowicz將目光轉向了《俠盜獵車5》,這是一款最近才發布的 新遊戲。《俠盜獵車5》引起很大的爭議,因為它逼真描繪了犯罪和暴力,不過Filipowicz認為它很完美,因為裏麵有逼真的停車標誌。修改遊戲軟件之後,他從遊戲中抽出幾千張與停車標誌有關的照片,它們處在各種環境中,這些圖片可以供算法挖掘。

AI研究人員偏愛視頻遊戲,Filipowicz用遊戲解決停車標誌問題隻是其中一例。為什麼這麼流行?還有幾個原因。一些人(比如Filipowicz)用遊戲作為真實世界的訓練場。還有一些人認為不同的遊戲需要不同的認知能力,他們覺得遊戲可以幫助他們理解一個問題:如何將智力問題分解成更小、更容易管理的小塊。還有一些人讚同上麵兩種做法,認為遊戲可以幫助他們構建更合適的AI理論。

一、駕駛學員

要讓一切發生,首先必須對遊戲進行調整,讓其它計算機程序可以直接玩遊戲,而不是人盯著屏幕動作控製遊戲。例如,如果將《俠盜獵車5》與一款名叫“Deep Drive”的軟件綁在一起,就可以將大量道路標誌照片輸入駕駛模擬器。這樣一來,汽車駕駛導航程序就可以接過控製權,與路麵測試相比,用這種方法測試駕駛軟件更便宜,更安全。

遊戲公司已經開始理解這點。2015年6月,微軟啟動一個名叫Project Malmo的項目,它是一個AI開發平台,根據Minecraft遊戲開發的,Minecraft是一款構建世界的遊戲。2016年11月,《星際爭霸2》開發商動視暴雪宣布與DeepMind達成相似的合作,DeepMind是穀歌旗下的一家AI公司。

在接下來的一個月,舊金山一個由私人資助的研發團體OpenAI推出了“Universe”。Universe包括一係列軟件,向所有人免費提供,裏麵有幾百款遊戲,直接用合適的程序就可以玩。Universe包括一些暢銷、製作成本很高的大遊戲,比如《傳送門2》,也有一些便宜、質量很高的網頁遊戲,比如《Bubble Hit Pony Parade》和《James the Space Zebra》。

為什麼微軟要啟動Project Malmo項目?有一個原因:它想教AI軟件一個技能,讓它與人協作。為了達到目的,項目主管Katja Hofman想用“Minecraft”創建一個更先進的個人助手。她的目標是開發一款軟件,軟件可以預測人類操作者的需求,幫助人類達成目標。Minecraft比真實世界簡單,但是足夠複雜,可以變得有趣,它是完美的測試場。Hofman博士和她的同事努力教計算機做一件事:如果想抓住虛擬小豬,計算機必須與人類玩家協作。因為機器無法理解書麵指示,它必須觀看遊戲中的人類動作,從中學習協作經驗。

為真實世界訓練汽車並不是視頻遊戲能為AI做的唯一事情。事實上,不同的遊戲需要不同的天賦,這點可以幫助研究人員解決智能問題。2015年,DeepMind發表一份白皮書,介紹了自己研究人員是如何訓練人工神經網絡的(它是一種程序,模擬生物大腦結構),神經網絡玩了幾十款遊戲,這些遊戲是1970年代至1980年代 Atari推出的。Atari曾是一家領先的視頻遊戲公司。

在網絡掌握遊戲的過程中,研究人員發現一些遊戲比另一些遊戲更難掌握。《Breakout》遊戲有點像單人版網球遊戲,它容易掌握一些。玩家的目標就是用一個彈力球擊中漂浮的障礙物,將它粉碎。玩家可以做兩件事:將球拍移向左邊,或者是右邊。如果失敗就會受到懲罰,錯過一個球就會丟掉一條命。相似的,如果成功就會獲得獎勵,每擊碎一個障礙物積分就會增加。遊戲將簡單、瞬間反饋結合在一起,特別適合DeepMind的神經網絡,它學會如何玩《Breakout》,成績很好,得分比職業玩家的得分高9倍。

其它一些遊戲更簡單一些,在《Montezuma’s Revenge》遊戲中,玩家目標就是從危險重重的金字塔中找到深埋的財寶。要達到目標,玩家首先要完成一些子任務,比如找到鑰匙打開門。反饋比起《Breakout》沒有那麼即時,例如,出現在一個地方的鑰匙打開的可能是另一個地方的門,離得很遠。獲得財寶之後,最終的獎勵是之前所有付出的總回報。也就是說,網絡很難在原因與後果之間建立聯係。在《Breakout》中神經網絡表現出色,到了《Montezuma’s Revenge》卻沒有任何進步。

自此之後,DeepMind的研究人員修改了算法,讓係統對事物更好奇,在探索、實驗過程中給予它更大的獎勵。這樣一來,算法偶然發現出色策略的機率就會高一些,這些策略不會立刻顯現出來。通過此方法不隻可以在虛擬世界鍛煉技能,還可以應用於真實世界。DeepMind的算法已經應用在穀歌數據中心內,它將能耗削減了40%。事實上,算法將類似的任務看得跟遊戲任務一樣。為了削減數據中心的能耗,網絡會改變一些東西,比如冷卻液泵的設計、荷載分布,改變的同時還會關注能耗。

二、真理的化身

改變遊戲程序的目的,讓它削減數據中心能耗,相當於教算法玩新的遊戲。為什麼?因為DeepMind的原始神經網絡一次隻能學習一款遊戲。為了理解《BreakOut》,它必須忘了自己從《Space Invaders》學到的東西。健忘是人工神經網絡的一個屬性,這個屬性讓它與真實的大腦區別開來。人工神經網絡是由虛擬神經元組成的,整個係統神經元的連接強度會調整,神經網絡正是從調整中學習的。如果學習的任務變了,那麼舊的連接網絡就要重寫。DeepMind在3月時發表一篇報告,我們從中可以發現,DeepMind程序員已經找到了克服此問題的好辦法,他們讓神經網絡一次學習多款遊戲,就跟真實大腦一樣。正因如此,我們朝著遷移學習邁進了一步,所謂遷移學習,就是從一種行為環境模式中學到東西之後可以用在另一種模式中,這是當前AI研究的一個熱點。

顯示出好奇心,獎勵延遲分派,和這些東西一樣,從一個任務到另一個任務遷移學習對人類來說是輕而易舉的事,但是機器卻很難處理。這一次,遊戲再度在研究中扮演重要角色。例如,紐約大學Julian Togelius組織了一個挑戰賽,名叫“General Video Game AI Competition”(通用視頻遊戲AI競賽)。參賽者必須製作一個程序,它可以玩,有合理的能力,程序或者程序開發者需要征服10款不同的視頻遊戲。要達成目標,軟件必須具有眾多的技能:規劃、探索、製定決策等等,然後將它們應用於之前碰到的問題。

當係統精通遷移學習之後,構建實用AI仍然隻是零散的活動。研究人員真正想搞清的是底層理論,也就是如何讓它係統化的底層理論。有一種理論成為候選,它就是具身認知(embodied cognition),倡導者認為我們開始時不需要設計智能程序,而是讓它從體驗中學習。

Dr Hofman特別支持這一方法。她認為,視頻遊戲是探索此方法的完美平台。之前研究人員在具身認知方麵有過嚐試,1980年代曾做過實驗,研究人員將傳感器裝在機器人身上,讓它了解真實世界是如何運行的,他們讓機器人奔跑,撞東西,以此學習。後來研究人員的確用該方法取得一些成績,但是他們碰到了障礙:無法擴大實驗的規模。DeepMind員工David Silver認為:“機器人有機械、有輪子、有馬達,還有許多類似的東西。最終你會在維護上花大量的時間。“

三、玩遊戲

視頻遊戲可以讓這一過程變得流暢順利。在虛擬世界中,虛擬機器人是沒有重量的。它沒有移動組件,不需要維護。如果要改變機器人規格,不需要拿著扳手鼓搗,也沒有必要將它拆成部件。在鍵盤中敲幾下就行了。

它的環境也可以輕易改變。調整結構不需要重新焊接金屬板,沒有必要粘合塑料板。計算機一次可以模擬幾千次,讓大量的虛擬機器人一次又一次嚐試任務,每做一次就會學到一點東西。這種測試是大規模的,學習的過程可以監控、可以理解,如果是真實的機器,根本不可能做到。

DeepMind創始人Demis Hassabis認為,有一點很重要,那就是確保虛擬機器人不會欺騙。虛擬傳感器收集信息,虛擬機器人隻能用這些信息導航。它不能窺視模擬的背後秘密。在《Montezuma’s Revenge》遊戲中,金字塔內危險重重,機器人必須找到出路,在《俠盜獵車》中,機器人必須在虛構城市Los Santos找到出路,它必須搞清自己身在何處,根據自己的所見判斷當下正在發生的事,機器人不能讓運行遊戲的計算機告訴它坐標。DeepMind正是用這種方法教程序玩視頻遊戲的。

如果要將遊戲方法應用於AI,用這種策略研究具身認知似乎是一個合乎邏輯的選擇,它看起來也是合適的選擇。看看任何智能生物幼小時的樣子,不論是狗還是人,你會發現它們在玩的時候形成一些東西,這些東西很像具身認知。達到這一階段,計算機並沒有為進化提供幫助。無論是人工世界還是自然世界,此類活動都有一個根本點:讓玩家做好準備,進入最大的遊戲——現實。

最後更新:2017-10-16 21:23:02

  上一篇:go 機器人產業發展情況
  下一篇:go 資訊:ROBOT魂 環太平洋2機甲成品資料全公開!