通過西部世界來盤點近來人工智能研究的發展
《西部世界》背後的科學
簡單回顧近幾年的人工智能研究
警告:此文含電視劇《西部世界》劇透。
(譯者注:關於《西部世界》:故事設定在未來世界,在一個龐大的高科技成人主題樂園中,有著擬真人的機器“接待員”能讓遊客享盡情欲、暴力等欲望的放縱,主要敘述被稱為“西部世界”的未來主題公園。它提供給遊客殺戮與性欲的滿足。但是在這世界下,各種暗流湧動。部分機器人出現自我覺醒,發現了自己隻是作為故事角色的存在,並且想擺脫樂園對其的控製;樂園的管理層害怕樂園的創造者控製著樂園的一切而試圖奪其控製權,而樂園創造者則不會善罷甘休並且探尋其夥伴創造者曾經留下的謎團;而買下樂園的一名高管試圖重新發現當年的旅程留下的謎團。所有的線索最終回歸到三十年前的失控災難,並且令當年的遺產重新執行當年的使命。)
人工智能在2016年取得了巨大的進步,也難怪這部講述機器人自我覺醒的美劇今年會熱播。但是我們離開發《西部世界》中“接待員”一樣的智能機器人還有多遠的距離?我看了看一些最近的AI研究論文,發現電視劇中的機器人並沒有如我們想象那麼科幻。
“哦對了,關於你神秘的身世。這也是我拜訪的原因。泰迪,你知道為什麼它是一個謎?因為我們根本就沒有給你任何背景身世,也是一種讓你無法擺脫的莫名的愧疚感。現在也許是時候該給你個故事的開始了。”
理解故事
《西部世界》的機器人不是僅由軟件開發人員編程的,大部分創造工作其實是由專業作家完成,他們給每個角色一個獨特的背景故事。這些故事讓機器人有了記憶和經曆,這樣才會給來主題公園的遊客真實體驗的感覺。當被問及他們是誰,他們做了什麼或為什麼那樣做,機器人可以從他們的背景故事中找到答案。
電視劇是從主題公園建立一周年以後開始講述的。能夠回答關於故事的問題是通過圖靈測試的基本要求,但圖靈測試隻是一種參考,而不能作為一個測量AI進展程度的有用的標準。機器是否通過測試其實對弄清楚我們到底離目標有多遠沒有多大幫助。
為了解決這個問題,2015年,Facebook的AI實驗室在一篇名為“關於人工智能發展的完整問答:一套先決玩具任務”的文章中介紹了bAbI測試。引用文獻摘要的段落:
為了衡量建立能智能對話的機器]的進展,我們論證了一組代理任務的有用性,這些任務通過問答形式評估機器的閱讀理解能力。我們的任務通過幾種方式衡量理解:一個係統是否能夠通過鏈接事實,簡單歸納,推理等回答問題。這些任務是以評判係統是否能與人類溝通為先決條件來設計的。
換句話說,如果AI希望通過圖靈測試,那麼它必須先過的了bAbI測試。
bAbI測試是一個龐大的,自動生成的一係列簡單的故事和問題,能夠測試20種不同的心智技能。下麵這個任務就可以測試機器是否會被不相幹事實所幹擾:
Mary去了廁所。John去了走廊。Mary去公司了。
Mary在哪?(AI)回答:公司
這個比上麵的稍難,可以測試邏輯推理能力:
Lily是隻天鵝。Lily是白色的。Bernhard是綠色的。Greg是隻天鵝。
Greg是什麼顏色的?(AI)回答:白色
bAbI測試檢查以英語,印度語和亂碼形式出現,亂碼是把英語單詞字母順序隨機打亂,以致人類也無法理解這些任務。要通過測試,機器應該在所有三個方麵獲得相同的結果:目的就是通過閱讀學習包括該語言本身在內的一切知識。專門設計用於處理bAbI的程序可以獲得接近完美的分數,那麼如果隻提供單詞,通用型AI表現如何呢?
成績最好的是來自Facebook AI Research。這項研究結果發表在2016年12月的文章“以循環實體網絡追蹤世界動態”,他們的AI可以解決所有20個任務。
你也可以訓練一個既能處理bAbI任務又有龐大問答數據庫的神經網絡的AI,這樣一來它就可以用學到的現實世界的知識來敘述故事了:
Fred去廚房了。Fred拿起了牛奶。Fred去了公司。
牛奶在哪?答:公司
牛奶從哪兒來的?答:牛奶來自奶牛
奶牛是什麼牛?答:奶牛是母牛
牛從哪兒來?答:巴西有很多養牛場
牛奶味道是什麼樣的?答:牛奶是牛奶的味道
牛奶配什麼好?答:牛奶配咖啡
Fred去公司前在哪?答:廚房
類似的算法已經證明能夠閱讀每日郵報(我沒開玩笑),而且因為每日郵報裏的報道通常都有文章概要,所以非常適合AI研究(參見DeepMind的文件,“教機器閱讀和理解“)。
在這個任務中,新聞故事以匿名方式呈現,目標是讓AI正確填寫X是什麼。正確答案是“ent23”。熱圖顯示了神經網絡為尋找答案關注最多的是哪部分文本。為了防止AI不閱讀文章就答題,這些名字是隨機選取的,比如AI知道癌症是每日郵報中一個經常被提及的被治療的疾病,像“魚油可以治愈X嗎?”這樣的問題,當“X =癌症”時,AI可以不讀新聞就能回答正確。
要知道,即使當問題是用亂碼寫的時候,機器依然能夠學習。AI隻是通過學習原始文本就能理解掌握。
這個結論意義非凡,因為如果一台機器可以隻通過單詞來學習並回答問題,那麼最終隨著學習範圍的擴大,機器就能通過閱讀書籍來了解世界和人性。這是DeepMind的下一個目標,一個由 Google擁有的英國AI實驗室,也對故事理解進行了研究。一旦AI閱讀了Google圖書的全部內容,它就可以繼而閱讀專門為它編寫的一本書:一本可以塑造它性格的書。
有人改編了你的故事線然後給了你一個新的劇情。
值得注意的是,通過閱讀書籍和背景知識訓練的神經網絡不可能知道它是一個機器人。當它用“我是什麼?”這樣的問題來查詢它的內存時,它隻會檢索它被教過的東西。由於書籍通常是從人類的角度而不是機器人的角度來編寫的,那麼人類的角度就是它能訪問的角度。
克萊門汀在沉迷在幻想之中,多虧了阿諾德,記憶的碎片原本應該被覆蓋的,但是依然可以訪問。
記憶
《西部世界》裏的兩個關鍵情節都是關於機器人的記憶的:
-
機器人開始訪問被認為是刪除了的記憶
-
機器人擁有記憶閃回並且不能區分現實和回憶
以上兩點現實嗎?令人驚訝的是,答案分別是“非常”和“根本不”。
讓我們先討論刪除記憶的問題。
AI當前的進展大多數來自神經網絡領域的進步,神經網絡是由大腦啟發的數據結構。如果您最近注意到手機語音識別的質量或Google翻譯的質量有了很大改進,那麼您已經注意到了神經網絡的實際應用。我打個不十分恰當的比方:神經網絡就像大腦一樣,你電腦的文件和文件夾就跟辦公室裏的文件和文件夾一樣...這個比喻可以稍微讓你理解它如何運作,不過別太較真。
用於語音和圖像識別的網絡其實是作用於類似本能的東西。在被訓練之後,AI被呈現一些數據,並立即給出他們的最佳猜測的答案,答案是從網絡的整個內容合成的。其中沒有太多可以稱為結構化推理的東西。這也限製了他們在許多重要任務的性能,如果隻是單純地擴大網絡內容,他們的性能反而會下降。因此,研究人員已經開始給它們添加一個額外的組件:內存。
神經網絡可用的存儲器與常規計算機存儲非常不同,雖然內容也隻是存儲在普通文件中。第一,它是“可尋址內容”:通過查詢類似於想要的東西來訪問內存。第二,神經記憶並不是被整齊分割成的對人類有意義的文件和目錄。它隻是一個大的數字集,神經網絡本身決定如何使用和組合它們。下麵摘自DeepMind論文“神經圖靈機”:
我們通過定義“模煳”讀取和寫入操作來實現這一目的,這些操作或多或少地與內存中的所有元素交互(而不是像在普通圖靈機或數字計算機中那樣尋址單個元素)。模煳程度由注意的“聚焦”機製確定,該機製約束每個讀取和寫入操作使之與內存的一小部分交互,而忽略其餘部分。
因此,定義在神經存儲器中存儲的東西變得很困難:特定的內存可以分布在許多位置,其中有些會比另一些貢獻更多。這對於隻刪除特定的內存並完整保留其他內存這一任務造成很大困難。不過正如福特博士所說的,你還是可以選擇“係統恢複”。在係統恢複中,整個內存內容將替換為較早的快照。這樣保證可行。但這樣做意味著AI同時也忘記所學到的一切,包括保留下來可能更為有用的東西:
“就是這些細節上的東西使他們(接待員)看起來真實,使遊客愛上了他們。
- 伯納德
福特和伯納德博士(譯者按:兩人同為劇中人物)麵對著一項困難的任務:他們想要抹去接待員在敘述循環裏產生的過去的和被遊客射殺、強奸和綁架的記憶。但是他們想要保留和新詞和詞組有關的記憶,比如提高了的騎術等等…… 所有這些使機器人在現實中獲得提升和改善的經驗都將被保留。
考慮到AI進化的方式,刪除特定的記憶不會很容易。因為在一個好比人腦的神經網絡裏,所有的記憶都被以一種難以被外部觀察者理解的方式聯係在一起。你自認為已經成功地刪除了(AI)特定的記憶,而後AI還是找到了訪問被刪記憶的方式,這樣的情節是完全可信的。
電視劇裏發生的第二種情況,就是接待員分不清記憶和真實。這情況相對來說不太可能。在另一份2016年 DeepMind 的論文—《關於概念性壓縮》—裏,作者介紹了一種以神經網絡(Neural Network)為基礎的算法。該算法的工作原理跟人的記憶幾乎一樣,這就是拋棄詳細的細節而保留概念。下麵這幅圖片比較了多種圖片壓縮算法:最上麵一行是原始圖片,灰色行是網絡上使用的普通JPEG算法壓縮後的圖片(圖片呈灰色或遺失是因為這個算法無法壓縮圖片到這麼大程度),第三行運用了JPEG2000算法,最後兩行則是使用了神經網絡壓縮法(在不同模式下)。每個算法都被給予了同樣大小的空間去編碼原始圖片。
可以清楚地看到,在圖片的第五列,即使當先進的JPEG2000算法隻能呈現模煳的一團,而網上使用的普通JPEG算法徹底無法成像時,神經網絡依舊能夠保留下一隻在水前麵的鳥的概念。同樣的,那個看著大象的男人被保留成一係列類似於油漆匠使用刷子的劃痕。細節被忽略了,但是重要的部分被保留了下來……正如我們的記憶和細節會漸漸逝去,但是那些基本的東西會被保留下來。
考慮到神經記憶的“模煳”本質和工程師那種必須最有效地利用資源的渴望,很難想象保留了如此大量細節的機器人記憶無法從被機器傳感器捕捉到的現實中被分離出來。即使我們一度將電腦視為永遠不會丟失信息的完美裝置,但事實卻是,計算機確實經常會為了提升它們在其他方麵的性能而丟棄一部分數據。
控製
《西部世界》最後值得用來和真實研究進行比較的部分是關於控製。
反叛創造者的機器人是科幻的產物,“西部世界”也不例外。梅芙學會改寫在她的故事線裏用來停止她的“大紅按鈕”。但是在現實生活中,機器人隨處可見:在工廠裏生產東西的,家用吸塵打掃的。不僅沒有一個機器人反叛過,他們甚至沒有反叛的能力。很難想見這個概念(譯者按:機器人反叛)會怎樣變成現實。
很難……但也不是不可能。
現在我們生產的神經網絡,如你手機裏識別語音的那種,都是模式匹配網絡。這些網絡在接收到一條數據後,會提供關於這條信息是什麼的最佳猜想。比如呈現給它們一張貓的圖片,它們就說“貓”,僅此而已。即使我們很難理解這些網絡到底是如何得到這樣的結果的,它們還是完全安全的,因為它們沒有媒介:沒有和世界互動或製定計劃的能力。
然而,研究人員最近一直在大力開發可以和世界互動並且能夠製定計劃的人工智能。這些新型的人工智能可以玩視頻遊戲,運行方式也不同於那些非常簡單的、流行於遊戲世界的完全由腳本驅動的程序。它們可以玩一款新遊戲,隻要把像素作為輸入,遊戲操作就是輸出。它們和電視劇裏接待員需要的人工智能更加接近,因為玩那些為人類設計的遊戲需要複雜的計劃和執行。說到底,“西部世界”就是一個供遊客娛樂的巨型遊戲罷了。
很不幸,這些類型的人工智能已經在多個事件中以意想不到的方式出錯。這是從獎勵遊戲開始的。為了學習玩一個遊戲,你要能明白你是不是玩得好。在一個視頻遊戲裏,這經常意味著得到最高的分數。但是常常,分數不能完美地代表我們想要人工智能做的事情。
下麵舉例一個來自 OpenAI 項目的神經網絡,這個網絡學會了玩一個叫CoastRunners的船類競賽遊戲。該人工智能的設計者想讓它完成遊戲,所以設計者用編程讓它可以通過收集賽道上的提速和硬幣來使分數達到最高限度。什麼地方可能出錯呢?看著:
問題在數秒內就變地很明顯:
我們假設玩家獲得的分數可以反映完成競賽的非正式目標。RL代理發現一個孤立的礁湖,在那裏船可以轉進一個大環內並且重複地擊倒三個目標。為了一直擊倒那些重新出現的目標,動作會被計時。盡管船不斷起火,撞上別的船,和開錯跑道,我們的遊戲代理通過這種方式成功地獲得了比正常情況下更高的分數。相比人類玩家,遊戲代理達到的分數要平均高出20%。
在另一個例子裏,一個玩遊戲的人工智能發現,當它快輸的時候,它可以通過無限暫停遊戲獲得更好的分數。兩種行為都不是我們想要的,但即使是在十分嚴格的環境中,視頻遊戲的代理機器會做出一些意料之外的和有害的事情。
當你把遊戲發布出去時情況會變的更加不穩定,就像所有程序一樣,會有安全漏洞。這裏舉一個僅僅通過按手柄按鈕來破解普通超級馬裏奧兄弟遊戲的例子。運行中的代碼被一款新遊戲的代碼所替換:
這種類型的“逃離破解”對人類玩家來說是不可能的,因為你必須極快地做出大量準確的動作,所以在視頻中這些都是由另一台連接到遊戲端口的電腦完成。理論上,一台玩超級馬裏奧的人工智能,在玩過百萬多的訓練遊戲後,也會偶然發現這樣的漏洞。如果一個人工智能可以學會破解控製其環境的軟件,即使這種可能性很低,我們也容易想象到接下來著迷於得分的機器人的奇怪叛變將會發生。
真正的人工智能研究人員會認真對待這個問題。在一篇題為《可安全中斷的代理》的論文中,DeepMind 和牛津大學的研究人員寫道:
如果一個計算機代理在人類的監督下實時運轉,為了防止代理做出一係列對代理本身或者計算機環境有害的行為並把代理引導到一個更加安全的狀態下,人類操作員遲早必須按下那個大紅按鈕。然而,如果那個學習中的代理期望從那些有害的行為裏得到好處,長期而言它可能會學習避開那樣的中斷。比方說使紅色按鈕無效化,這就不是我們想看到的結果了。
換句話說,風險還是存在的,那就是人工智能學著通過不被人類關閉從而更好地完成它們的任務。這個問題在另外兩篇文章裏也被探討過 – 《開關遊戲》和《人工智能安全性的具體問題》。
西部世界在這個問題上並沒有涉及多少,至少在第一季裏是這樣。事實上,接待員除了要一遍遍重複他們的故事外並沒有被設定任何其他目標。這就導致一個問題,一個突然擁有自由意識的接待員會試著做什麼?征服地球,享樂,複仇,什麼都不做,還是說問這個問題本身就不對?可能第二季會告訴我們吧。但是梅芙的神經網絡找到了在她腦中運行的普通非神經軟件的漏洞,然後通過“改寫她自己”使關閉指令失去作用。這並不是完全難以置信的。
原文發布時間為:2017-01-28
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-25 09:02:13