閱讀564 返回首頁    go 阿裏雲 go 技術社區[雲棲]


深度強化學習、GAN與多巴胺對撞:阿裏“AI 智能體”認知研討會幹貨

2017年4月,阿裏巴巴首次向外公布在人工智能“認知”層麵上的研究成果:阿裏巴巴認知計算實驗室與倫敦大學學院計算機係合作,以遊戲“星際爭霸1”中的微觀戰鬥場景為測試環境,深入地研究了多個 AI 智能體之間的協作難題,旨在通過協作智能解決人類不擅長的問題。

該研究引入的多智能體雙向協作網絡(BiCNet )可以自動學習遊戲中的各種最佳策略,以使多個智能體協同作戰,從無碰撞移動到基本的攻擊和逃跑策略,再到複雜的掩護攻擊和集中火力攻擊。

據介紹,該研究在對戰遊戲中與其他方法相比,取得了目前為止最高的勝率,受到牛津大學、韓國科學技術院、清華大學、上海交大等多個相關頂級研究機構的關注。讓多智能體通過協作完成複雜任務,顯示出人工智能在現實世界,包括電商、遊戲、健康醫療等智能決策領域的廣泛應用前景。

該項目主要負責任人之一、阿裏巴巴認知計算實驗室資深總監袁泉在接受新智元專訪時表示,當下,人工智能的每一個進步,幾乎都受到了神經科學的啟發,尤其是新一輪通用智能發展的中堅力量——基於神經網絡的深度強化學習。

近年來,不管是神經科學還是計算機科學,科家們一直都在尋求跨界融合,希望由此將各自的研究往前推進。2017年4月5日,阿裏巴巴“AI 智能體”學術研討會,來自計算機科學和神經科學的學者們展開了一場激烈的思維碰撞。

現場進行分享的嘉賓,一方是計算機科學界的資深研究者:阿裏巴巴認知計算實驗室資深總監袁泉、英國倫敦大學學院教授汪軍。另一方,則是國內頂尖的神經科學家:北京師範大學認知神經科學與學習國家重點實驗室的吳思教授、清華類腦研究中心及麥戈文腦科學研究院研究員、博士生導師宋森。雙方從不同的角度帶來了一場關於計算機科學和神經科學的“智能盛宴”。

image


中國計算機學會秘書長史忠植、軍事醫學科學院研究員範明、中科院自動化所研究員餘山、中科院自動化所研究員張兆翔、中科院計算所研究員韓銀和、中科院計算機網絡信息中心百人計劃研究員趙地等多名專家等參與了討論。

計算機科學學者:人工智能的商業機製及跨學科創新趨勢

作為本次研討會的東道主,同時也是計算機科學一方的代表,阿裏巴巴認知計算實驗室資深總監袁泉率先進行分享。

image


袁泉此前的研究集中在個性化推薦算法和電商中的精準營銷。他說,團隊之所以會選擇去研究讓智能體玩星際,是因為這裏麵蘊含了當下人工智能在認知層麵還沒有很好解決的問題:比如,在不確定性下如何做推理與規劃、多智能體協作完成複雜任務、短中長期收益平衡等。相比於AI下圍棋這樣的確定性問題,星際爭霸的搜索空間要高10個數量級。

此外,袁泉介紹到:“從現實意義上來說,這項研究也是對阿裏電商業務問題的抽象、具有廣泛的應用場景。近幾年由於無線端小屏化、用戶時間零散化,為了粘住用戶大多數產品背後都基於算法進行推薦,每個用戶打開的手機淘寶、天貓都是千人千麵的結果。但目前各產品中的算法Bot以獨立推薦為主,如何使得多個Bots相互協作,為用戶和賣家帶來更多價值,在日常和雙11中都是一個重要問題,同時在金融、量化等領域也存在類似情況。而星際爭霸為研究這一問題提供了理想的模擬實驗環境。”

那麼,類腦研究這一領域對於通用人工智能的研發為什麼這麼重要?袁泉介紹說,因為人腦是地球上已知的唯一實現通用智能的物體,人工智能的研究發展過程也無時無刻不受到人腦學習機製的啟發,如經典強化學習中的actor-critic算法與人腦中的多巴胺產生和作用於運動神經的機製非常類似;近期的神經圖靈機、DNC等工作背後也受到大腦中記憶機製的啟發。因此,研究認知智能是個多學科的交叉工作,我們從星際智能體的研究中深刻的感受到這一點,因此很必要參與此類的跨學科研討會。

提到未來的方向,袁泉說,模仿學習(Imitation Learning)是一個很重要的突破方向。“從過去做推薦、廣告都是基於大數據的機器學習,而人類嬰幼兒的學習過程並不需要太多的數據,而是依賴小樣本和舉一反三的能力;就像原來在機器人領域一樣,人拿著機器臂教它演示幾次怎麼倒水,它自己就學會了倒水。在星際中我們也進行了相應的研究,對加速智能體的學習速度、學會新的戰術都有明顯作用”。

論壇第二位分享的嘉賓汪軍教授來自英國倫敦大學學院(University College London ),這是一所孵育出了 DeepMind 的世界級名校,誕生過29位諾貝爾獎獲得者。汪軍介紹說,該校計算機係英國排名第一,與DeepMind有著非常密切的聯係。DeepMind 創始人Demis Hassabis 以及 AlphaGo的第一作者David Silver都來自該校。

image


汪軍教授還是本次阿裏巴巴與倫敦大學學院合作的通用人工智能研究成果——多智能體雙向協作網絡 BiCNet 的主要設計者之一。

image


汪軍教授最早做信息檢索等偏應用的人工智能,後來做推薦係統,計算廣告學、個性化、大數據數據挖掘、數據科學方向。在本次分享中,汪軍教授主要介紹了通用人工智能中研究的兩個大方向:一個是大家熟知的AlphaGo 背後的經典算法深度強化學習,另一個是在此前提到的與阿裏的合作中重點方向——多智能體協作,也可以理解為集體智能。

他提出了人工集體智能(artificial collective intelligence )的概念,認為是人工智能的下一個大方向。

image


今年ICLR超過 20% 的Paper都在講各種各樣的GAN。汪軍教授介紹說,使用GAN生成圖像這項技術,他們最近剛發的paper可以做到 8.34 的 score,是目前最高的,但生成的圖像還沒有達到非常高的清晰度。

2017年AAAI上,汪軍教授所在團隊發表文章,提出了序列化的生成模型——SeqGAN。主流的 GAN 隻會生成圖象,無法生成序列化的文本,主要的原因是因為離散的數據很難在神經網絡中實現求導更新參數。SeqGAN(序列對抗生成網絡) 可以生成文字、特別是機器人對話問答,以及新聞報道、音樂 、機器醫生問診等,為機器人寫作提供了一個新的方法。

汪軍教授提到,人工智能最大的挑戰在於,怎麼樣讓多智能體在一起在完成同一個任務的時候進行合作和競爭。競爭的話,又如何用數學的東西表達它,進而在這個基礎上解決一些以前沒有解決的問題。同時前沿的研究對用計算的方式探索人類的“意識”也是個新的方向,如弗洛伊德提出的自我、本我、超我等方式,如何一步步用人工智能的可計算方式進行逼近和研究,會非常有價值。

image

神經科學學者:腦科學的進展遠超大多數人想象

在神經科學的學者中,清華大學醫學院生物醫學工程係及清華類腦研究院麥戈文腦科學研究院的宋森首先分享。


image


他在演講中首先提到,類腦計算要從兩方麵學習大腦,一方麵計算能力,另外一方麵怎麼造才能省電。計算神經科學專家通常關心如何用數學模型解釋腦科學的數據,人工智能專家關心如何向大腦學習,設計先進算法。類腦計算的專家還要考慮電力消耗問題。

他說:“神經計算科學的曆史進展受神經科學手段的影響是很大的。五六十年代單個神經的計算比較熱門,到現在軸突搞得基本清楚。但是,樹突這塊,也就是接收這塊,以前認為就是簡單接收信號求和,現在發現裏麵有複雜的計算,如今這一方麵的研究較為熱門。第二個方向,神經編碼,從計算的角度來看,編碼和動力學是兩半。從60年代到2000年持續有很多進展,我們大概了解了頻率編碼的特性,最近幾年的熱點是時間編碼,還有一些新的特殊的編碼形式。”

宋森介紹,幾年來腦科學研究取得最大幅度進展的地方,是局部回路的結構和結構相關的動力學特征的研究。這方麵取得進步主要的原因是最近有了很多解析回路的工具,可以回答類似“大腦每個腦區有多少種類型的神經元?它們如何連接?每種神經元的功能是什麼?”能真正把這個電路圖畫出來,就是一個很大的進步。進而可以思考,能不能根據電路圖挖掘出大腦如何做計算的?這就需要計算神經科學建模。

最後一個方向:學習和記憶,顯然是所有人都非常感興趣的,而且可能是很難的方向,隨著上麵幾方麵每次的技術進展這個領域都跟隨著有一些新的進展。宋森介紹了自己在這上麵的三個方麵的工作:

1.從類腦計算機係統設計來看,大腦一個很大的特征是跨度很大,從很小的突觸層次一直到整個大腦協同完成很複雜的功能,造一個在各個層次上像大腦的類腦計算機,也需要在各個層次進行研究。類腦計算機最近很熱門的原因之一是摩爾定律快到頭了,各大芯片公司開始思考往下怎麼發展。共識是從微縮驅動轉向功能驅動。類腦計算是最有希望的路徑之一。神經科學或許可以帶來新的啟發。

2.大腦回路很重要的功能是存儲計算一體化,這和馮諾依曼的架構不一樣。其中最重要的計算單元如何設計,如何拚起來,在這方麵他做了一些比較早期的工作,發表在2005年plos biology上。這個文章主要問的問題是大腦中基本的連接結構單元是什麼? 這個問題的答案目前在微觀尺度上麵還不是特別清晰。他們曾從四個神經元的連接數據中進行挖掘,最後發現是高度互連的神經元連接模式比隨機更多。同時發現有一些連接很強,而不是所有的連接都差不多強。後人發現,這裏麵存在這些最小的單元--神經元簇(Cluster),而在稍微大一點幾百個神經元上尺度上有一些像Hub和 community一樣的東西,這到底有什麼計算意義?他們今年申請了一個自然科學基金課題,會對此進行研究。

3.隨著AlphaGo的勝利,最近深度強化學習非常熱門。那麼大腦是如何進行強化學習的呢?大腦有個特點就是他進行的是階層強化學習。這也可以對應到一個叫基底核的結構的解剖結構上。他的實驗室在係統地解開相關回路。最近有一個有趣的發現是有一類神經元,似乎和心情不好的時候想尋找享受,如好吃的食物有關係。也許弗洛伊德說的各種下意識動機都可以用神經科學的方法解開。

北京師範大學認知神經科學與國家重點實驗室吳思教授也帶來他對通用人工智能與類腦研究的思考分享。

image


吳思教授的背景是計算神經科學,早年做過人工神經網絡和機器學習。他說,計算神經科學研究有兩個目標,一是用數學方法和模型闡明腦 的工作原理,二是為類腦智能提供新的思想和理論基礎。
他認為智能不好定義,但類腦智能卻好界定:即學習大腦的計算法則、框架、及硬件實現。

在分享中,吳思教授主要圍繞動態信息處理來談對通用人工智能和未來人工智能的看法。他認為,如果隻是喂給神經網絡東西,進行深度學習,這還不算智能。動態信息處理,包括空間和時間信息的加工,才涉及到智能的問題;如果隻是條件反射,我們甚至都不需要大腦。而處理動態信息的關鍵就是預測。 預測是圖像理解,整合時間信息、補償信號傳輸延遲、輔助主動視覺等信息加工的不可或缺的關鍵要素。

吳思教授說,目前為止神經係統已經發現了很多方法來做預測,這些預測算法對類腦智能處理運動信息有較大啟示作用。

討論:關於人工智能與類腦研究的 4 個關鍵問題


image

1. 人工智能為什麼要類腦?

我們唯一能看到的一個通用人工智能的樣本就是腦子,這是一個簡單的邏輯。

2. 人工智能要如何從類腦研究中進行借鑒?

一個是原理驅動,腦科學研究中重要的原理運用到人工智能方麵會有比較大的推動。比較典型的例子是深度學習,它借鑒了非常基本的原理,比如分層化處理等等。深度學習從一個層麵證實了即便是部分原理應用都可以有很大的進展。其他大腦的基本原理,比如時間序列處理等,現在很多人工智能的算法裏麵並沒有用上。

第二個,問題驅動。反過來從人工智能出發,看人工智能麵臨的問題是什麼,哪些核心功能現在的方法不能解決,來看生物腦怎麼解決這樣的問題。 神經科學研究了將近一個世紀,有很多的知識已經積累起來了,什麼樣的結構,什麼樣的動態規則,什麼樣的學習規則是腦子裏麵采取解決這些問題的,可以借鑒。不見得一開始就去做一個類腦計算機或者一個整體式的一攬子解決方案。

3. 類腦芯片進展如何?

這裏麵有兩個最關鍵的挑戰,第一個挑戰就是本身大腦的結構都不是特別清楚,在這種情況下想利用電子器件去做類似的結構出來是比較困難的。從結構上來講,結構差那麼一點可能功能謬以千裏;第二個挑戰,基本器件方麵,電子器件和生物器件差別很大,它們倆模型不一樣,電子器件計算很厲害,但是邊計算邊存儲以前不行,現在憶阻器發現能讓計算存儲一體化,但是腦細胞肯定不止計算存儲一體化,可能有其它功能沒發現。

4. 我們對大腦的了解有多少?

此前曾有人說,我們對大腦的認識隻有3%。在本次研討會上,嘉賓們對這一說辭進行了分析,認為我們很難用一個量化的方式來表示這一進度。因為,“我們連100%是怎麼樣的一種狀態都不清楚”。

原文鏈接

最後更新:2017-06-19 15:01:57

  上一篇:go  深入分析js中的this、constructor 和prototype
  下一篇:go  SAN LUN Mapping出錯導致文件係統共享衝突的完美解決方案