754
機器人
洪小文:人工智能簡史之從寒冬到複興
丹棱君有話說:人工智能發展至今,已有 61 年,一路走來,經曆過兩次有名寒冬期,第一次是從 1974 - 1980 年,第二次是從 1987 - 1993 年。人工智能為何會遇冷?然而,即便在寒冬,科學家們仍在堅守,埋頭研究,直到神經網絡的研究進展和大數據統計路徑的顯現,讓人工智能迎來了春天。讓人工智能從寒冬走向複興,背後有哪些默默耕耘的科學家?他們的研究成果對於今天人工智能發展取得的進步有什麼樣的意義?有請微軟全球資深副總裁、微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文博士~
談 AI 的曆史,需要談談很有名的 AI 寒冬。
第一次 AI 寒冬是在 1975 年左右。1956 年,在達特茅斯會議之後,包括很多國家政府,美國國家科學基金會、軍方,大家滿懷希望投了很多錢。但是到 1975 年以後發生了幾件事情,讓 AI 進入了寒冬。
第一件事是,因為 AI 隻能解決 Toy Domain(擺弄玩具一樣的簡單任務)。那個時候做語音,隻有 10 個詞匯;下象棋,大概是 20 個詞匯;做視覺的都不能辨認出一個椅子。第二件事情,1956 年美國打越戰,還有石油危機,所以經濟也不是那麼好;還有一個很有名的英國學者 Lighthill,說 AI 就是在浪費錢,AI 的研究經費也因此遭到大幅削減(注:1973 年出版的“人工智能:一般性的考察”的報告,俗稱 “Lighthill 報告”中稱,“迄今該領域沒有哪個部分做出的發現產生了像之前承諾的那樣的重要影響”。英國政府隨後停止了對Edinburgh, Sussex 和 Essex三所大學的 AI 研究資助)。
到 1980 年開始,有些公司如 IBM 開始做一些專家係統,可以說也是有限的應用。盡管有一些缺點,但還是可以做一些事情,據說有十個億的產出。因此,AI 也就開始回春。我也是這個時候開始進入 AI,所以也蠻幸運的。
我是 80 年代去美國 CMU(卡內基梅隆大學)的。我記得當時日本很有錢,到處在美國買樓、建實驗室,所以當時日本提出了一個第五代電腦係統計劃(5th Generation Computer Systems,FGCS)。當時還有公司專門做 Lisp Machines(通過硬件支持為了有效運行 Lisp 程序語言而設計的通用電腦)。就有點像今天 DNN 紅,大家都在做 DNN 芯片,那時候大家都在做 Lisp Machines,Thinking (Connection) Machines,然後神經網絡也剛開始發芽。
不過,到 1990 年中,AI 又第二次遇冷,為什麼會這樣?因為第五代計劃失敗,Lisp Machines 和 Thinking(Connection)Machines 都做不出來;而神經網絡,雖然有意思,但並沒有比其他一些統計的方法做得好,反而用的資源還更多,所以大家覺得也沒什麼希望了,於是 AI 又進入第二個冬天。
1990 年代統計路徑的顯現
差不多在冬天這個時刻,統計的方法,使用數據的方法出現了。
AI 在 1990 年以前都是用所謂的研究人腦的方式來做;而我們有太多理由來相信人腦不是靠大數據的。比如,給一個小孩子看狗和貓,看幾隻他就可以辨認了。可用今天的方法,要給計算機看幾十萬、幾百萬隻狗跟貓的圖片,它才能辨認是狗還是貓。用大數據這種方法,就在第一次 AI 寒冬和第二次 AI 寒冬之間開始萌芽。雖然 AI 是一批計算機科學家搞出來的,但事實上有跟 AI 極其相關的一門叫模式識別。模式識別一直以來都有工程師在做,從 1940 年代統計學家就在做模式識別。
我們這代人學計算機就知道兩個人,一個人叫傅京孫(K. S. Fu),另外一個人叫竇祖烈(Julius T. Tou)。如果 AI 選出 60 個人的名人堂,裏麵會有一個叫傅京孫,那是大牛。傅京孫嚴格上來講他不算 AI,但是可以包括進來,因為他也做模式識別。模式識別裏麵也有兩派,一派叫統計模式識別(Statistical Pattern Recognition),一派叫做句法模式識別(Syntactic Pattern Recognition)。80 年代的時候,句法是很紅的,統計人無人問津,後來 1990 年以後大家都用統計。
我們做語音的人很清楚,後來引入了隱馬爾可夫模型(Hidden Markov Model),都是統計的方法,到今天還是很有用。尤其是在華爾街,做金融投資,做股票,很多都是做時間序列(time series data),而隱馬爾可夫模型這個東西是很強大的。甚至可以說,統計的方法是我們做語音的人(發展起來的)。而且早在 1980 年,我們做語音的人就講出這句話 “There is no data like more data(沒有什麼樣的數據比得上更多的數據)”。從現在的角度來看,這是非常前瞻性的,而且就是大數據的概念。我們那個時代的數據量無法和現在相比,但我們已經看出來了數據的重要。而且 IBM 在這方麵是了不起的,他們一個做語音的經理有次說,每次我們加一倍的數據,準確率就往上升;我們每炒掉一個語言學家,準確率也上去。
決策樹也是第一個被語音研究者所使用。然後就是貝葉斯網絡(Bayesian Network),幾年前紅得不得了,當然現在都是用深度學習網絡(Deep Neural Network,DNN,在輸入和輸出之間有多個隱含層的人工神經網絡)了。我為什麼要提這些東西?今天我覺得很多人上 AI 的課,可能 75%、80% 都會講 DNN,其實 AI 還是有其它東西的。
今天要教 AI 也是非常困難的。我還特別看了一下最近的 AI 教科書,像吳恩達等人的。他們學術界教 AI,還會教這些東西,但是如果去一般或者大多數公司,全部都是在講 DNN 。我覺得現在找不到一本好的 AI 教科書,因為早期的書統計沒有講,或者沒有講 DNN 。我也看了下加州大學伯克利分校的 Stuart J. Russell 跟Peter Norvig寫的教科書(Artificial Intelligence: A Modern Approach),裏麵 DNN 提了一點。可能現在也不好寫 AI,因為 AI 提了這麼多東西,人家說根本沒用,不像 DNN 的確很有用。
我稍微解釋一下 DNN 和一般統計方法的差別。統計的方法一定要有一個模型,但是模型一定是要有假設。而你的假設多半都是錯的,隻能逼近這個模型。數據不夠的時候,一定要有一定的分布。當數據夠了,DNN 的好處是完全靠數據(就可以),當然也需要很大的計算量。所以 DNN 的確有它的優點。以前我們用統計的方法做,還要做特征提取,用很多方法相當於做了一個簡易的知識表示;現在用 DNN 連特征提取都不用做了,隻用原初數據進去就解決了。所以現在講 AI 不好講的原因是,DNN 講少了也不對,講多了的話,說實在的,全是 DNN 也有問題。
神經網絡的起伏
最早的神經網絡叫感知器(Perceptron),跟第一個寒冬有關。因為一開始的感知器沒有隱含層(Didden Layer),也沒有激活函數(Activation Function),結果 Marvin Minsky 和 Seymour Papert 這兩位就寫了一本書《感知器》說,感知器連異或(XOR)都做不出來。那麼,做感知器還有什麼用?所以基本上就把整個神經網絡第一代的進展扼殺了。
感知器連最簡單的邏輯運算“異或”都無法做到,某種程度上導致了 AI 的寒冬。
其實後來人們發現誤會了,其實書並沒有說的那麼強,不過的確造成了很大的影響。一直到 1980 年,做認知心理學的人,代表性的如 Rumelhart 和 Hinton 才複興了 AI 。
Hinton 早期是做認知心理學的。Hinton 先在 UCSB(加利福尼亞大學聖巴巴拉分校),後來到了 CMU 。Rumelhart,Hinton 和 McClelland 複興了多層的感知器,加了隱含層以及 Back-propagation 算法,這個時候神經網絡就複興了。而且神經網絡隻要加上隱含層,事實上,隻要加一層,再加上激活函數,就可以模擬,甚至還有人證明可以模擬任意的函數,所以神經網絡一下子就變的紅了。卷積神經網絡(Convolutional NN,CNN)那時候就開始出來了,然後是遞歸神經網絡(Recurrent neural network,RNN)。因為如果要處理過往的曆史,有存儲,就需要回溯。用於語音和自然語言處理的時間延遲的神經網絡(Time-Delayed NN,TDNN) 也都有了。
不過,那時候數據不夠多。數據不夠多就很容易以偏概全。第二個因素是,計算的資源不夠,所以隱含層也加不了太多。這樣,神經網絡雖然大家都很有興趣,也能夠解決問題,但是卻有更簡單的統計方法,如支持向量機(Support Vector Machine,SVM),能夠做到一樣或者略好。所以在 1990 年代就有了 AI 的第二次冬天,直到 DNN 的出現才又複蘇。
AI 的複蘇
AI 的複蘇,可能要從 1997 年開始說起。1997 年,深藍打敗了國際象棋冠軍Garry Kasparov 。這裏我要提一下一個人叫許峰雄。他當時在 CMU 做一個當時叫做深思(Deep Thought)的項目,基本上架構都有了。結果,IBM 非常聰明。他們到 CMU 參觀,看到許峰雄這個組。然後也沒花多少錢,最多兩百萬,就買下了這個組,讓這些人到 IBM 做事。IBM 當時就看到,在五年之內就可以打敗世界冠軍,其實真正的貢獻都是在 CMU 做的。許峰雄後來也離開了 IBM,加入了我們,一直做到退休。AI 複蘇的實際上才剛開始。有人說這個也沒有幫助到 AI 複蘇,因為深藍可以打敗國際象棋的冠軍,也不是算法特別了不起,而是因為他們做了一個特殊芯片可以算得很快。當然,AlphGo 也算得很快,算得很快永遠是非常重要的。
到了 2011 年,IBM 做了一個問題回答機器叫沃森(Watson),打敗了 Jeopardy 遊戲的冠軍。Jeopardy 這個遊戲其實也很無聊,有一點像記憶的遊戲:問一個常識的問題,給四個選項。其實沃森打敗人也沒什麼了不起的。
到 2012 年,AI 的複蘇就已非常明顯。機器學習和大數據挖掘變成了主流,幾乎所有的研究都要用,雖然還不叫 AI 。事實上很長一段時間,包括我們做語音和圖像,對外都不講 AI 。因為 AI 這個名字那時變得有點名聲不好。人們一說起 AI,就是不起作用。第二次 AI 寒冬的時候,隻要聽說某個人是做 AI,那就認為他做不成。其實機器學習是 AI 的一支。
現在回到深度學習,有三個人物對深度學習做出了很大貢獻。第一位,Hinton 。這個人非常了不起。了不起之處在於當沒有人在乎神經網絡的時候,他還在孜孜不倦地做這個東西。第二個做 CNN 的人物是 Yann LeCun 。他也是做 CNN 一輩子,在 AI 冬天的時候繼續做,所以今天很多 CNN 該怎麼用來自於 Yann LeCun 。另外一個叫做 Yoshua Bengio 。所以,現在還有人在排中國十大 AI 領軍人物,我覺得很搞笑。我覺得誰在外麵講 AI,或者搞個公司,他們和科學家是兩回事,科學家是在別人以為冬天的時候還在做。
從左至右:Yann LeCun,Geoff Hinton,Yoshua Bengio 及吳恩達。
所以今天講到 DNN、講到 AI,沒有前人的種樹,就沒有後人的乘涼。這 61 年的發展,這些辛苦耕耘的人,大家需要記住這些人。今天在台麵上講 AI 的人都是收成果實的人,講自己對 AI 有什麼貢獻,我覺得就太過了。
還有一個跟 AI 有關的,大家記得 Xbox 幾年前有一個叫 Kinect,可以在玩遊戲的時候用這個東西,我覺得這是第一個發布的主流的動作和語音感知設備。當然之後就有 2011 年蘋果的 Siri,2012 年 Google 語音識別的產品,以及微軟 2013 年的產品,這些都是 AI 的複蘇。直到 2016 年,AlphaGo 打敗了李世石,打敗了柯傑,AI 就徹底複蘇了。
今天的 AI
DNN、DNN 還是 DNN 。
我不是有意要貶低 DNN 的重要性,但如果說 DNN 代表了所有的智慧也言過其實。DNN 絕對非常有用,比如機器視覺,會有 CNN;自然語言或者語音的,就有 RNN,長短時記憶(Long Short-Term Memory,LSTM)。計算機視覺裏麵有一個圖片集 imageNet 。我們很榮幸在幾乎兩年前,微軟在該圖片集上辨認物體可以跟人做得一樣好,甚至超過人。
語音也是一樣,微軟在差不多一年前,在 Switchboard,在任意的一個任務裏麵也超過了人類。機器翻譯我相信大家都常用,可能是每天用。甚至看起來好像有創造性的東西也出現了,比如小冰可以寫詩。我也看到很多電腦畫出來的畫,電腦做出來的音樂,都表現的好像也有創造力一樣。
不過,雖然 AI 很紅,機器學習,大數據大家都聽過,特別是做學問的人還聽過大數據挖掘,那麼這三者有多大的差別?我常說這三個東西不完全一樣,但是今天這三個的重複性可能超過 90% 。所以到底是 AI 紅,還是大數據紅呢?還是機器學習紅呢?我覺得有那麼重要嗎?
後台入駐微軟小冰
如果你很萌,請跟她一決高下!
最後更新:2017-11-09 05:12:28