閱讀116 返回首頁    go 機器人


Michael I.Jordan:人工智能的研究機會和挑戰

......

本期導讀:鍾誌偉

本期編輯:賈瀟一、李敏

1956年,在達特茅斯會議中,人工智能的概念首次被提出。在這61年裏,人工智能經曆了三起兩落,每一次人工智能的強勢崛起都是因為先進技術的發明,而每一次人工智能的衰落都是因為人們對人工智能的期望高於技術所能達到的水平。

當前,人工智能正處於第三波發展高潮之中,全世界無論是政府還是市場都普遍看好人工智能,紛紛加大投入,在這個背景下,人工智能的未來發展能否符合人們的預期,決定了人工智能是否會遭遇第三個寒冬。

我們認為以下三個因素決定了人工智能的未來:算力、算法和數據。

首先,從縱向看,算力決定了人工智能發展的上限。適用於矩陣運算的GPU為深度學習算法提供了硬件基礎。2世紀90年代以來芯片技術的發展印證了摩爾定律,GPU硬件的快速發展為人工智能的發展提供更廣闊的空間。但時至今日,隨著芯片技術逼近7納米的物理極限,摩爾定律變得不那麼適用了。7納米也就是幾十個原子的維度,這已經極度逼近納米技術的極限,再往下走需要巨大的研發成本,這導致了芯片集成度無法進一步提高,直接限製了算力的發展,這也就成為人工智能發展的的最大瓶頸。突破納米技術的極限達到亞原子維度的量子計算機或許就是未來算力發展的希望,一旦量子計算機取得進展,將從底層徹底顛覆目前已有的一切成果,所有的計算機硬件將會革新換代,與之匹配的新計算機語言和軟件也將會應運而生,人工智能將迎來大爆發。

其次,從橫向看,算法決定了我們能多靠近人工智能的上限。好的算法能夠在算力一定的基礎上,充分利用算力空間,達到事半功倍的效果。20世紀90年代以來人工智能的強勢回歸很大程度上是因為算法的發展,神經網絡模型(現代深度學習的前身)在人工智能的應用,連續在計算機視覺任務,自然語言處理任務,語音處理技術任務上取得突破,進而引起了整個科研界的狂熱,人工智能由此迎來近二十多年來的發展高潮。

最後,從當前看,數據決定了我們能多快到達人工智能的上限。當前基於深度學習算法的人工智能一套相當複雜的係統,需要足夠大量的數據去支撐起這一套複雜的係統。就像數學上的函數模擬,對於一個複雜的函數模型,我們需要足夠多的數據點去擬合,才能得到比較準確的結果。所以在沒有其他劃時代意義的人工智能算法出現的前提下,數據是當前人工智能發展最為重要的因素。

就目前而言,人工智能是會繼續一路高歌勐進,還是會遭遇第三輪寒冬,誰也無法100%保證。但是客觀公正地看待當前人工智能發展的機會和挑戰,既不過度鼓吹人工智能,也不過度悲觀,才是我們應有的態度。今天我們為你精選了人工智能師祖Michael I. Jordan的演講內容,與大家分享人工智能師祖Michael I. Jordan對於人工智能的看法。

以下轉自螞蟻金服科技,供你參考。

人工智能的三起兩落:

20世紀50-70年代,人工智能被提出後,迎來第一次發展高潮,但由於算法簡單,算力跟不上而逐漸被淡忘。

20世紀80年代,專家係統的發展讓人工智能迎來第二波高潮,但是數據量較少、係統複雜以及維護成本高,也使得人工智能漸漸不被主流科學家認可。

進入20世紀90年代,神經網絡、遺傳算法等科技“進化”出許多解決問題的最佳方案,在21世紀前10年,複興人工智能研究進程的各種要素,例如摩爾定律、大數據、雲計算和新算法等,推動人工智能在進入快速增長時期。1999年,美國第一筆人工智能風險投資出現以後,在18年內,投資到人工智能領域風險資金累計超過1900億元。

——融快注

演講者介紹:Michael I. Jordan(邁克爾·喬丹):現執教於加州大學伯克利分校,任電氣工程與計算機科學係和統計係傑出教授 (Distinguished Professor)。 Jordan教授是美國科學院、美國工程院、美國藝術與科學院三院院士,是機器學習領域唯一一位獲此成就的科學家。

Michael I. Jordan:人工智能的研究機會和挑戰

人工智能等未來科技,它正在改變我們的世界。過去30年來,我所在的研究領域更是有著極大的變化。然而,我們對當下這些技術的構建和未來技術發展的理解還遠遠不夠。因此,我們正麵臨著諸多技術的難題和挑戰。

首先簡單做一下自我介紹,我於1998年加入加利福尼亞洲大學伯克利分校,並擔任教授,在機器學習以及統計學領域已有30年的研究經驗。因此,我對大規模數據的研究非常感興趣。在過去的幾年來,這些不斷增長擴大規模的大數據讓我們這些科學家和研究人員十分興奮。利用這些豐富的數據,我們可以打造更多細分的市場和服務。這些讓人充滿想象的業務模式和市場,例如金融市場,讓我感到非常的興奮和激動。因此,我非常高興能夠加入螞蟻金服團隊,我也非常開心能與螞蟻金服的同事們共事。

第一

人工智能的一些觀點

首先給我想和大家一起討論一下人工智能(ArtificialIntelligence,AI)。

越來越多的人開始討論AI。人工智能過去10-20年的飛速發展,實際上是是機器學習的增長和統計學的發展。但歸根結底,無論是人工智能的發展亦或是機器學習的發展,核心都是依賴數據的積累和發展。如今,AI這個詞不斷被高頻地提及。那麼究竟什麼是AI,它的目標是什麼呢?人工智能現在發展到什麼程度了,接下來又有哪些發展方向呢?

首先,提到人工智能,大家腦海裏的第一個形象通常是機器人。就像電影《我,機器人(I,Robot)》中的智能機器人一樣,人類可以與它進行智能的互動。因此,有些人覺得人工智能就是指這方麵的進展。它可以和你溝通,甚至照顧你的衣食起居。這也是我們在電影等藝術作品中常見的人工智能形象。

關於人工智能的第二種常見理念,我們把它叫做增強智能(Intelligence Augmentation),簡稱為IA。什麼叫增強智能呢?就好比你用搜索引擎搜索這個詞,你會發現它能在很短的時間內返還給你數量龐大的結果,這些結果你憑人腦的力量是完全無法記住的。增強智能就像搜索引擎這類工具,它能夠幫你完成一些此前人力所不能及的任務。除了搜索引擎之外,大家日常可以體驗的增強智能技術還包括推薦係統,網站能夠根據你的喜好更個性化的為你提供推薦;機器翻譯係統,計算機能夠輕鬆幫你在多門語言之間自如切換。

第三個則是人工智能基礎設施層麵的。從更廣泛的意義層麵來說,人工智能更可以代表人們生活周圍的基礎設施,例如交通網絡、智能家居、城市規劃、甚至是金融網絡等。結合人工智能技術,這些基礎設施可以更加智能化,也更加可預測。我們可以直觀的感受到,人工智能技術給我們的生活所帶來的影響,這一點在中國相信大家也感同身受。我們可以更輕鬆的獲得更多的信息,並利用這些信息做我們想做的事情。

最後,還有一種人工智能的觀點是“混合”,也就是將以上三個觀點進行整合。如自動駕駛、人工智能醫生助手、教育平台等。它不僅能夠作為一個實體與人們進行互動,還能從不同角度為人們賦能,創造更大的價值。

第二

人工智能哪些可以實現,哪些是不可以實現的?

當然,我們不可能把所有東西都實現出來。下麵,我將就計算機視覺、語音識別、自然語言處理和機器人這四個研究方向和大家分享一下當前的研究進展。

1、計算機視覺

關於計算機視覺的未來願景,我們已有很多探討。十幾年前可能還做不到的圖像識別技術,現在已經實現了質的突破。目前,計算機已經能夠在複雜的圖像中準確識別出特定的物體。但是目前計算機還缺乏對視覺場景常識性的理解。例如,如果我走近舞台的邊緣,你會感覺到我很有可能從舞台上摔下來。你可以從場景中判斷接下來會發生什麼,以及為什麼會出現現在的場景。目前我們還遠沒有實現這方麵的能力,但這在未來是有可能實現的。

2、語音識別

目前,關於語音識別的研究我們進展到了哪裏呢?目前,從語音到文字的相互轉化,已經在諸多語種中成功得以應用。但是,目前計算機的聽覺能力還十分局限。例如,如果你閉上眼睛,隻憑聽覺來感受周圍的環境,你可以知道你正身處於是安靜的公園還是繁華的街道,你可以根據聲音來推斷周圍的人和物的方位。從聽覺的角度來說,計算機目前還缺乏這一類的常識性認知,如果再加上複雜的語言信息,那就更是難上加難。

3、自然語言處理

相比於前麵提到的計算機視覺和語音識別問題——這兩個問題還相對比較容易,自然語言處理則十分困難。當然,我們能看到機器翻譯目前已經取得了很大的進展,但是它仍然會錯漏語言中的諸多細節。毫無疑問,當下的機器翻譯使用的神經網絡技術能對海量的不同語言數據進行計算和匹配。但人類學習語言的方式則和計算機則大不一樣。例如,我也會意大利語,但是當我把意大利語翻譯成英語時,我更多的是對意大利語句進行理解和消化,再將這個語義用英語表達出來。

此外,問答(QA)也是自然語言處理研究的經典問題。目前問答係統的研究隻能回答一些條件明確、答案簡單的簡短問題,而無法對真實世界問答場景中複雜的問題作出複雜的回答。最後,人們語言中的語義繁複多樣,有同義詞、近義詞和反義詞等問題,一個詞組在不同的語言場景中可能蘊含多種含義。不同語言之間的表達方式和習慣更是有所不同。對於人類來說,我們在從小到大的學習過程中學會了如何辨別這些複雜的語境,但計算機目前還遠不能做到這一點。

4、機器人科學

目前,在工業界正在使用的機器人隻能程序化地完成一些固定的任務,這與我們想象中的“人工智能機器人”區別較大。機器人科學有助於實現人工智能研究的最終願景——我們希望未來人工智能機器人能夠自主的運行,並與我們互動。

第三

人工智能的未來十年願景

接下來,我和大家討論一下人工智能未來十年的願景。

我雖然不是預言家,但我認為上麵列出來的這些內容在今天無法實現,但未來十年則有可能變成現實。業界有許多公司和機構正在從事這些方麵的研究,以期最終推出合適的解決方案。例如未來十年,自動駕駛汽車甚至是無人駕駛的空中出租車是有可能實現的,雖然眼下這些技術的使用體驗還不甚良好,但是可以期許的是未來十年這些前沿技術應該可以為人們所用。

在技術的可用性上麵,相信十年後就可以達到一個比較理想的情況。當然在未來十年之內,人工智能係統的“智能”還非常有限,你並不會覺得它能和人類一樣智能了。我認為未來十年這些AI係統還不能像人類這樣有這麼高的靈活性和創造性。

AI係統往往局限於某個特定領域,它們能夠理解的語義也是十分有限的。至於AI係統在人機交互的過程中能夠產生什麼樣的理解,是否能實現預測、計劃等高級智能——實際上我們離這一步還非常遙遠,至少要花幾十年的時間,甚至數百年時間才能讓機器人了解人類。

如此說來,人工智能研究還有哪些是在我們有生之年很難實現的呢?

可以說,創造力和智能對於人工智能係統來說還很難實現,推理和抽象能力的實現也似乎遙不可及。例如在社交媒體上,人們時常會創造出一個新的詞匯,而其他人也能很容易理解這個詞在這個語義背景下的意思,而不需要像計算機一樣通過讀幾千個句子來理解。此外,對於AI係統來說,讓它主動做一個長遠的規劃是非常困難的,而人類卻經常會給自己主動設定一些雄心壯誌的目標。

此外,AI技術的發展還存在著許多其他的限製,它遠沒有一個正處於成長期孩子那樣強大的學習能力。孩子可以通過少量書本上的圖片和信息了解世界,但是AI即使看過了無數張圖片和信息,仍然很難對世界產生自己的“理解”。我並不覺得在可見的未來有什麼超人類AI的存在。當然有些並不是AI研究領域的人會鼓吹以後會出現超人類的機器人。我並不認為這種情況會發生,也沒有理由會發生。

當然你也有可能不認同這種觀點,例如你會覺得計算機比人類的處理能力要強大得多。但人們目前對“智能”的了解十分有限,因此也無法預估實現真正的人工智能需要多強的運算能力。我們現在能看到的是計算機能夠處理大量的數據,但它在做假設、推理等方麵的能力還是非常有限的。計算機雖然能識別這些場景,但是它無法了解場景的作用和意義。人類目前花費大量的精力在幫助機器理解現實世界,但計算機是沒有主動學習能力的。計算機和人類的差異巨大,更遑論自我認知等更高層麵了。

不久前AlphaGo橫掃圍棋界讓人們驚唿人工智能強大的“智能”水平。但實際上我覺得圍棋並不是一個非常困難的遊戲,因為這些棋局就在你麵前,每一步的選擇都是有限的。但在實際生活當中,我們做出的判斷和麵臨的選擇常常沒有邊界——門外的世界一切皆有可能,你腦海中的世界也天馬行空。圍棋,確實需要超級計算機來計算海量的可能性,但圍棋的選手並不是以機器的方式來思考的。因此,我們並不能聲稱機器在圍棋上打敗了人類,就比人類更聰明。但是好在,人工智能強大的計算能力和先進的算法正在各種不同的應用場景中發散。你也許認為機器的智能已經到了很高的水平,但其實這種論斷言過其實了。對於出色的人類的智能而言,圍棋問題答案是有限的,因此就相對簡單,而像交通、金融、醫療這些通常解決方案多樣的問題,才是真正棘手的問題。

第四

關於人工智能,我們應該擔心什麼?

人工智能係統看上去很智能,但實際上並非如此。

首先,人工智能係統並不能真正理解他正在做的事情。例如,將係統中一些詞句替換成發音相近但語義相反的其他詞匯,隻要係統能夠正常運轉,它並不能從語義理解層麵進行察覺異樣。

其次,人工智能係統並不知道做出搜索,或提供數據之後會產生什麼樣的結果。人工智能如果出錯則會帶來很嚴重的後果,這是人們需要考慮的問題。搜索引擎,你在輸入關鍵詞後係統會返還給你各種各樣的搜索結果。但對於醫學的診斷,你必須提供有效可行的治療方案,如果醫學診斷出錯的話,它就有可能使人致命;在金融的世界裏,錯誤的決策會引發巨額的經濟損失;在交通問題上,錯誤的決策也會招致不必要的災禍。

第三,人工智能可能會讓一些崗位消失,但同時也會產生新的崗位。我們知道,幾百年前的工業革命讓一部分人失去了工作,與此同時也有更多新崗位的出現,但人們必然需要花時間來學習和適應這個轉變。

最後,就是人工智能的使用問題。我並不覺得機器人以後會統治人類,雖然這種情景經常出現在電影、小說等藝術創作中,因此這個話題時常被大家提起。我認為問題並不在人工智能技術本身的危險與否,而在於這些技術會不會被心術不正的人錯誤地使用。我們需要將技術用在正確的場景和合適的人身上,真正用技術賦能世界。

第五

人工智能目前有哪些重要的技術

接下來,我與大家分享一下人工智能研究的幾個技術方向。

第一,機器學習。像聚類、分類、預測、維數縮減、優化等都是值得研究的方向。隻要有大的數據集、好的算法和並行分布式計算,就能取得不錯的效果。

第二,規劃。如何找出一個問題的最佳解決方案?我們可以基於搜索技術,來助力人工智能的策略和戰術,找到解決問題的捷徑。這也是機器學習的一個方麵。

第三,人機交互,這一直是一個重要的話題。人機交互指的不僅是讓機器獨立地工作,還包括如何更有效地促進人機互動。研究方向包括如何讓機器主動向人類學習,眾包來解決複雜問題,以及經濟學和博弈論模型等。

第六

機器學習存在的挑戰

上圖,我以清單的形式和大家分享了如今機器學習的挑戰,我覺得這個領域還有很多工作可以來做。

不確定性問題。深度學習雖然發展迅速,但仍有許多問題亟待解決。尤其是還有黑盒子問題尚未完全解決,大家隻關注輸入和輸出,最終得出結果,中間的過程還有很多不確定性。但是在解決醫療等問題,這種不確定如果很高的話就無法起到參考價值。

不可解釋問題。我們需要一套係統能夠解釋機器決策和行為背後的原因。

深度理解機器學習、了解機器學習中的每一個環節。目前,我們對數據集的依賴還很強,而無法利用少量的數據做類比、推理等其他思維過程。

人工智能係統需能夠製定和規劃長期目標,並主動搜集相關數據進行分析。

人工智能係統需要實現實時及時的表現和反饋。我們現在隻能期望結果盡可能的快。

對於一些沒有預料到的場景,如何保證係統的魯棒性並解決問題,現在也是一個挑戰。

係統麵臨對手攻擊如何保證魯棒性的問題。

數據共享問題。對於機器學習來說,數據量的大小和數據的質量十分重要。如果個人和機構能夠對數據進行共享,將不同的數據放在一起並整合,這樣就能取得更好的效果。

隱私保護問題。我相信這也是機器學習麵臨的一個重要挑戰,這雖然是另外一個角度,但與各位的工作都息息相關。

第七

個性化與機器學習

我們看到最近幾年來,越來越多的矽穀公司提供個性化服務的,我也相信這是未來的趨勢所在。但要提供這些服務,我們需要從消費者那裏獲得大量數據,然後讓計算機去學習,去做決定。

雖說有正在試圖提供個性化服務的公司有上百家之多,但其實目前並沒有任何一家脫穎而出。為什麼會出現這種情況呢?我們想象一下下麵這種場景:

導師(老板):我們需要一個係統來提供個性化的智能服務,取代傳統的服務。

學生們:好的,那我會使用這些這些(@#¥%…&*)機器的算法,同時需要這麼多的用戶數據等來提供個性化的服務。如果要這樣做的話,我們需要建立更多的架構,需要更多的服務器,需要讓這些服務器服務更多的模型。

導師:好,為了提升我們的服務,我們還需要搭建一套人工智能係統服務,我們還需要服務更多的用戶。(提出了更多的要求……)

最後,隨著公司規模逐漸擴大,一個原本服務20名用戶的公司為一萬人、甚至是幾百萬的用戶提供服務,隨著用戶規模的擴大,個性化服務的質量則會逐步下降。作為公司的決策者需要考慮諸多因素,在控製成本的同時提供更好的服務。而這些矛盾在短時間內很難解決。

在機器學習和統計學的研究上,我們需要有時間預算的概念。例如你搜索了一個關鍵詞,你期待係統得在幾秒鍾之內迅速返還答案。而目前個性化的服務係統,可能同時有幾千個模型在運行,這個係統十分複雜。當你獲得更多的數據,或是加載更多的模型時,為了留住用戶它的速度必須變快,必須越來越精準,但這個要求與現實是相反的。實際上因為數據量越來越大,錯誤率也會增大,數據的處理速度反而會越來越慢。因此,正確率和時間預算有時很難平衡。隨著客戶的增加,用戶的不同需求也會越來越多。

人工智能係統的魯棒性十分重要。幾千年前人類開始建造橋梁和房屋,它們也促進了經濟了發展。隨著時間的推移,幾百年過去了,有許多橋梁和建築物因為各種自然災害等原因倒塌了。這對於數據科學來說也是一樣的,我們不僅需要保證係統當下的質量,還要保證很長一段時間係統的穩定性。我們需要專業的工程師來解決這些問題,但目前我們的能力還不夠。

第八

伯克利的RISELab實驗室最新研究:Ray

最後,我想和大家介紹一下我們實驗室的研究,我們正在研究的都是一些非常困難的問題。現在領域內還沒有通識的基礎理論,但是我做的都離不開統計學、計算幾何、如何去提升計算的精確度和效率、如何優化等等。如果你對我們的研究也感興趣,可以訪問我們的網站來了解我們的研究,我們的研究進展及論文都有在網站中分享。

現在,伯克利的RISELab實驗室正在進行項目——Ray。

這個項目始於今年一月,我和我們的學生正在研究這個項目,他們都是機器學習領域優秀的研究者。我們實驗室前稱是AMPLab,相信大家都不陌生。我們一起在這個實驗室開發了很多產品,最有名的就是Spark,還有CoCoA等其它一些和統計學等相關的項目。這些項目都很成功,但也存在一些局限,但對於數據分析來說,這已經是全世界非常領先的平台了。如果你在尋找一個開放性的免費平台,而不是盈利公司所開發控製的,那這些平台就是你理想的選擇。

現在我們的實驗室名為RISELab,研究方向由用批數據進行進階分析,轉移到由實時數據進行實時決策上來,這也與上麵所提及的人工智能研究領域正麵臨的挑戰相統一。

新興的人工智能應用方向有很多,包括自動駕駛汽車,圍棋機器人,對話式人工智能助理等。但是這些平台隻是垂直的解決一些特定問題。因此,這些激勵了我們想構建一個平台,讓人們可以在這些平台上輕鬆構建自己的應用的目標,因此我們的研究需要保證平台具有一定的靈活性,平台需提供研究,規劃,學習等能力,並且實現實時控製。

這裏展示的是hadoop及Spark技術展示圖,和與Ray架構的對比。Ray是一種並行流程。新的架構就好象一個數據流的圖形,而非線性的,當我們想要進行測試時,不需要等之前的任務完成之後再開始。它在非常複雜的環境下可以同時進行,能夠同時完成多個不同的任務。

這個Ray的特點是遞延式任務,有些任務完成得非常快,而有些任務則比較慢,因此它們所花費的時間是不一樣的,它是異構任務,還有低延遲任務、透明容錯、數據共享而不序列化等一些特點,這也Ray的特點。

上圖是Ray的係統架構。我們現在正在這種構建架構,支持很多不同的調度,有局域的調度,還有全局調度。我們的網站上有關於這個框架的詳細論文信息。

以增強學習為例,也就是AlphaGo所使用的技術,在這個係統中,他們在每一個數據點都是無標簽的。而係統的每一次行動,都是無監督無反饋的。你必須要進行無數遍重複,失敗很多遍,才能找到最好的行動。

最後給大家展示一下我們的一個實驗案例。我們讓模擬人偶學會跑步。假設他有四十塊肌肉,我們需要調動這四十個模塊協調起來,讓人偶能夠成功的跑向終點。計算機很難同時控製這四十塊肌肉的,傳統電影和動畫製作時大家都無法解決這個問題,他們的做法是在真人的身上貼上標識,讓真人模擬動畫物體(如動物)的運動。我們嚐試了很多種不同的算法控製它的跑步動作和方向,才製成了你們看到的動畫效果。

大家可以看到這個問題其實很難,我們要確保人偶不摔在地上,它的過程就像一個小孩在學走路一樣。可以看到當迭代達到100次和500次時效果即可取得很大的進步,而AlphaGo的迭代達到了成百上千萬次。這個過程中我們也做了幾百萬次實驗。在我們的平台上,你也可以像這樣實踐自己的想法。

最後,簡單的總結一下今天的內容。

機器學習或者說人工智能已經是現在這個時代最熱門的話題了,越來越多的科學家和公司都在加大投入對人工智能的研究。人工智能確實能夠解決某些問題,但目前人工智能技術還不夠強大,遠沒有成為一個理論全備的學科。但這不是說我們要停下來,而是說我們要繼續加強對人工智能的研究。但你不能期望AI可以解決所有的問題——這是非常瘋狂的想法,因為現在並沒有在發生。我們應該著眼於正在進行的研究、正在創造價值的理論。人工智能會給人類帶來有用的價值,而不是焦慮。

感謝大家的聆聽!

鳴謝:陳思喆

最後更新:2017-10-08 02:17:13

  上一篇:go 鋰電、有色弱市拉升,人工智能輝煌不再
  下一篇:go 壞了也不怕,機器人終於有“肌肉”了——未來機器人能夠反複自愈