933
機器人
震驚!人工智能突破圍棋後再次突破另外一個不可思議的領域……/049
點擊播放
GIF/272K
DOTA2 經典賽事TI7國際邀請賽決出最後冠軍,中國團隊雖占據234名但無緣冠軍。回顧本屆比賽,Open AI 的機器人因為戰勝了人類玩家而大放異彩,團隊也在Twitter上宣布歡迎更多玩家挑戰和試用自己的技術。本文帶來深度解讀,戰勝了人類玩家的Open AI 機器人究竟強在哪裏?與圍棋比賽中的AlphaGo相比是強還是弱?未來在虛擬遊戲中,人類是否對機器毫無勝算?
Dota2 TI7決賽,中國戰隊惜敗無緣冠軍
8月13日,DOTA2 經典賽事TI7國際邀請賽在美國西雅圖鑰匙球館舉行,決賽由中國戰隊 NewBee 對陣國際戰隊 LIQUID,經過三場大戰,最終 NewBee 0:3告負,LIQUID奪得冠軍。
總決賽上 NEBWEE 狀態非常低迷,而Liquid勢不可擋,完成一穿六的神話,三比零擊敗NEWBEE成功奪冠。
今年 TI7 的獎池已經達到兩千四百萬美金的高度,折合成人民幣約一億六千萬。此次TI7 國際邀請賽前五名有四支中國戰隊,前四名有三隻中國戰隊!這四隻戰隊分別是NB、LGD、LFY、IG。中國戰隊斬獲了此次比賽的第二名、第三名和第四名,可惜無緣冠軍。
TI7上,最奪人眼球的不是人類冠軍,而是 AI
然而 TI7 上最奪人眼球的恐怕已不再是人類玩家,而是在表演賽上擊敗了魔獸老兵 Dendi 的 OpenAI 的 Dota2 機器人。
在昨天的 1 v 1 對戰中,OpenAI 設計的機器人擊敗了職業玩家 Danylo "Dendi" Ishutin。OpenAI 的機器人在首場對戰中用時十分鍾擊敗了 Dendi,之後 Dendi 在第二局對戰中退出並拒絕再戰第三局。相關報道請見這裏。
正如一位知乎用戶評論的:這個AI的每一步操作都令人震驚,Dendi居然在短短幾分鍾內就技不如人,甘拜下風。這位烏克蘭老司機不遠萬裏來到西雅圖被AI虐的故事,簡直是聞者傷心,聽者流淚。
比賽過程中,Dendi 曾自言自語地向機器人“求饒”——“請放過我吧。”他說。這一幕讓人不禁想起柯潔和 AlphaGo 在烏鎮對決時的潸然淚下。
50位影魔抵擋住了 AI 成為 Dota 主流
對於魔獸玩家來說,OpenAI 的這款機器人最大的意義可能是成為一款訓練利器。OpenAI 的 CTO Greg Brockman 表示:在 TI 上,我們派出 AI 和其中的多位高手進行了比賽,在比賽中,AI 展現出了很強的魯棒性和技巧,許多職業選手希望能持續和我們的 AI 比賽,並考慮要把它當做是一種訓練手段。
於是,OpenAI 今天正式發了推特,邀請 Dota 職業戰隊來使用他們的 AI 作為訓練手段,並很希望看看“是否有用”。
作為給這些職業玩家的提示,我們友情提示一下,這個訓練對手有以下特點:
AI 本身是使用 Self-Play 的方式從零基礎訓練而成為頂尖高手的。它自己的訓練時間並不長(兩周),自我訓練的比賽也隻有“區區”數千次(相對於 AlphaGo 的訓練盤數)。因此,這個 AI 目前還處於比較稚嫩(相對於它能達到的“境界”)的時期;
這個 AI 更講求策略而不是“手速”(每分鍾動作),它的“手速”隻是一般人類玩家的水平;
從昨天的視頻中可以看到,這個 AI 在一定程度上能預測你的行動,也會在不熟悉的場景下即興發揮。特別的,它還會一些“trick”,來誤導你。
天才少年 Arteezy_Artour Babaev 在和 AI 對戰後表示:“輸給一個機器人是讓人覺得不舒服。但看了回放,我發現我確實能學到一些東西……有些事情,別人告訴你是一回事,你自己親身經曆了以後,是另一回事。”
Brockman 還表示,特別讓他們感到高興的一點是,除了能讓職業玩家從和 AI 的比賽中獲益,業餘玩家也一樣能從和 AI 的比賽中得到提升。
和 AI 試玩了一盤遊戲的 Jake“SirActionSlacks”Kanner 表示,贏得一場 Dota 的方式有很多種,而 AI 所用的一些“招式”是他想象不到的。“所以 AI 不是簡單地攻擊身邊的敵人,它是有選擇的?”他問 Brockman。“當然。”Brockman 說。
然而,就在 AI 似乎要成為非常有潛力的訓練方法時,昨天,似乎是為了捍衛人類玩家的尊嚴,有50位“影魔”都擊敗了 OpenAI 的機器人。
克它的戰術似乎已經找到了。其中一位玩家介紹自己的經驗:
“我就是擊敗Open AI 的 AI 的50人之一。
一般要贏的策略是占領第一座塔。在0:00,你要激怒敵人的線小兵(俗稱一波兵,creep wave),讓他們開始跟隨你。然後你圍繞叢林轉一圈,敵方的小兵將開始形成一個可以跟隨你的congo line。然後,您可以繞過叢林,以便在下一波兵來臨時,您可以再次激怒他們,並繼續圍繞圈子走動。當你的一波兵攻擊塔時,AI會燒毀畫符,由於某種原因,它無法真正地決定追逐你或捍衛塔。所以經過約5分鍾的時間,你的一波兵將最終毀滅塔,這樣你就能贏得1v1比賽。
我使用的是風靈之紋(wind lace )+ 3個藥膏。你可以以額外的運動速度超越波兵和AI,並且藥膏將給您足夠的維持力,讓你可以挺過波兵幾分鍾的的攻擊。你也可以使用信使給你更多的藥膏,但我發現它隻能使用1個藥膏。”
看來,在艾澤拉斯的世界中,AI 將和人類共同提高。
對AI來說,更大的挑戰在於多智能體協作
Brockman 自己曾表示:下一步研究將是 5v5 比賽,我們希望做出 5 個相互協作的 AI,擊敗人類戰隊。另外,我們也期待嚐試把 AI 和人類放在同一戰隊中,協作取得勝利。
關於這一點,卡耐基梅隆大學機器人係博士,Facebook人工智能組研究員田淵棟在知乎上表示:OpenAI隻是宣布一對一能勝職業選手。一對一相對容易,像星際這邊兩隊兵對戰已經可以打得不錯了。聽下來是用Self-play的辦法讓Bot去和自己玩不斷提高,五對五還沒有結果。
日前,DeepMind 與暴雪一起,發布了一套名為 SC2LE (StarCraft II Learning Environment)的工具組件,這套工具組件將加速即時策略遊戲星際爭霸2 中的 AI 研究。報道在此。
國內AI 資深專家袁泉此前曾深入研究過星際爭霸中的若幹AI問題,和UCL共同發表了多智能體協作網絡BiCNet,第一次展現了AI在星際微觀戰鬥中的五類智能協作方式。他對新智元表示,星際爭霸 2 中目前的難題主要是“Full Game”的問題。
Dota 2 的 AI 和星際2 的AI,一個能在 Full Game 中取勝,卻不太懂協作;一個善於協作,卻在Full Game 中難敵人類。這一方麵當然和兩個遊戲各自的特點有關,另一方麵則可以看出 AI 訓練方式上的差異。我們期待能有關於二者技術的更多對比。
炒作還是事實?
關於 OpenAI Dota 2 機器人的能力,一篇題為《炒作還是事實?對 OpenAI Dota 2 機器人的幾點看法》的文章進行了比較詳細的分析:
今天,我讀到關於OpenAI的DotA 2機器人在 The International 上擊敗人類玩家的新聞時,我興奮得跳了起來。對於一個電競迷,我從來沒有玩過DotA 2,但是我經常在Twitch上觀看其他電子競技比賽,甚至在高中時也是半專業的玩家。但更重要的是,像DotA這樣的多人在線戰鬥競技(MOBA)以及像“星際爭霸2”這樣的實時戰略(RTS)遊戲,一般都被認為是當前人工智能技術難以企及的。
這些遊戲需要長期的戰略決策以及多人合作,並且比國際象棋,圍棋或Atari遊戲具有更複雜的狀態和行動空間,所有這些項目都是 AI 技術在過去幾十年中已經“解決”的。 DeepMind 已經在星際爭霸 2 上工作了一段時間,並且剛剛開源了他們的研究環境。但是到目前為止,研究人員還沒有取得重大突破。大家普遍認為,我們距離在星際爭霸 2 上擊敗頂級人類玩家至少還需要 1—2 年。
這就是為什麼 OpenAI 的新聞如此讓人震驚。怎麼會這樣呢?最近有沒有我沒有覺察到的突破?當我開始更多地了解DotA 2機器人正在做什麼,它是如何訓練的,以及使用什麼遊戲環境,我得出的結論是,這是一個令人印象深刻的成就,但不是新聞界所認為的 AI 突破。這就是這篇文章要講的東西。我想提供一個清醒的解釋:他們帶來了什麼新東西。有一個過度誇張人工智能的進步是很危險的,比如以下這兩條推特就很容易誤導大眾:
首先要說明的是,這些誇張的報道和錯誤的假設並不是OpenAI研究人員的錯。 OpenAI通常都對其研究的貢獻和局限都表述得非常直接和明確。我相信在這件事上也是一樣的。OpenAI還沒有公布他們的解決方案的技術細節,所以對於非專業的人來說,很容易就會得到錯誤的結論。
我們先來看看DotA 2機器人解決的問題實際上有多困難。比起AlphaGo又難在哪?
•1v1 和 5v5 沒有可比性:5V5 是DotA 2的一個經典遊戲,這些遊戲需要高級策略,團隊溝通和協調,通常需要45分鍾左右的時間。 1v1遊戲會受到更多限製,兩名選手基本上沿著單線行駛,並試圖相互殺死,通常在幾分鍾內結束。在1v1中擊敗對手需要的是機械技能和短期戰術,不涉及任何如長期規劃或協調的事,但二者是當前的AI技術麵臨的大挑戰。事實上,你可以采取的有用的行動的數量少於圍棋的遊戲。有效狀態空間(玩家對遊戲中目前正在發生的想法),如果以智能方式表示,應該比圍棋還要小。
•Bot能獲得更多的信息: OpenAI機器人(很有可能)是基於該遊戲API的開發的,可以訪問人類無法訪問的各種信息。即使OpenAI研究人員限製訪問某些類型的信息,機器人仍然可以訪問比人類更準確的信息。例如,技能隻能在一定範圍內擊中對手,並且人類玩家必須看屏幕並且評估當前與對手的距離,這需要反複練習。機器人知道確切的距離,並可立即決定使用說明技能。獲得各種精確的數字信息是一個很大的優勢。事實上,在遊戲過程中,人們可以看到機器人好幾次都是在距離的最大限製上使用技能。
•反應時間: 機器人可以立即反應,人類不能。再加上上述的信息優勢,這是另一大優勢。例如,一旦對手所處距離超出攻擊範圍,機器人可以立即取消它。
• 學習操作一個單一的特定角色:遊戲裏總共有100個不同的角色,具有不同的天賦能力和優勢。機器人學習玩的唯一的角色——Shadow Fiend,通常會立即進行攻擊(而不是在一段時間內持續的更複雜的技能),並從所知道準確的距離和快速的反應時間中獲益 - 這是機器人擅長的。
鑒於1v1主要是機械技能的遊戲,機器擊敗人類玩家並不奇怪。由於環境受到嚴格限製,(可能)限製了一係列可能的行動,而且幾乎沒有必要進行長期的規劃或協調,我得出的結論是,在這樣的條件下擊敗人類玩家實際上比在圍棋比賽中擊敗人類要容易得多。
我們並沒有因為算法多聰明就在AI上忽然取得了進步,它之所以起作用是因為我們的研究員足夠聰明,在目前條件的限製下做了正確地設定。
這一機器人的訓練時間大概是2周左右,也證明了上述的推測。 AlphaGo需要在穀歌的GPU集群上進行數月高度分布的大規模訓練。自那時以來我們取得了一些進展,但那並不是將計算要求降低一個數量級的東西。
現在,批評已經夠多了。媒體可能對這件事有一點過度炒作,但它確實有一些非常酷、非常令人驚訝的地方。顯然,這是大量具有挑戰性的工程作業和團隊合作的結果。
完全通過self-play訓練:這個bot不需要任何的訓練數據。它也不是從人類的演示學習。它是完全隨機開始的,並且不斷地以自己為對手進行遊戲。雖然這種技術並不是全新的,但令人驚訝(至少令我驚訝)的是,正如有評論指出的,bot學習了人類玩家經常使用的技巧。我對Dota 2 的了解不是很多,不能判斷這點是否很厲害,但我覺得這非常酷。這個bot也可能學習了人類玩家甚至不知道的其他技巧。這與我們在 AlphaGo 中看到的類似,就是人類玩家開始從 AI 的令人意想不到的動作中學習,並調整自己的遊戲策略。
AI +電子競技的重要進步:在具有挑戰性的環境(例如Dota 2 和 Starcraft 2)中測試新的AI技術是非常重要的。假如可以說服電子競技社區和遊戲發行商,我們可以通過將AI技術應用於更多遊戲來提供價值,這有助於AI更快發展。
DATADUO
致力於
做中國最好的人工智能技術培訓
做中國最專業的人工智能產品推廣平台
做中國領先的AI早期VC服務
共 享 A I 未 來
最後更新:2017-08-23 10:41:14