閱讀701 返回首頁    go 機器人


人工智能熱潮中的幻覺和常識

Peter Thiel 說過一句非常聳人聽聞的話:當你看到一個成為 buzzword 的詞出現在你麵前的時候,你第一時間想到的詞應該是「欺詐」。

這個觀點頗為極端,但我們特別認同 buzzword 的危害。Buzzword 其實是被綁架了的詞匯,出現後迅速被媒體和圈內人熱炒,從業者或營銷人員也順勢跟進,再加上創業者的前赴後繼和以及一點點 to VC 策略,一同引發了群體性狂歡。

但由於沒多少人真的去仔細研究這些 buzzword 背後的東西,最終導致的結果是吹捧的時候吹到天上去,而隻要風向稍有變化,就玩命了去踩。這幾天關於 Magic Leap 的新聞這是這一點的最好寫照。

前一陣子區塊鏈很火的時候,USV 的大佬 Fred Wilson 怒了,他在一次活動上說,許多 dumb money 的思路其實就是:這個叫區塊鏈東西這麼火?那我也得趕緊搞點才是。

Oh shit, I need some blockchain. Where do I get some blockchain?

—Fred Wilson, Union Square Ventures

看過前幾篇文章的讀者會發現(參考:在我們等待下一個風口的時候),我們對於所謂風口或者 buzzword 的態度很一致。繞過無休止地吹捧和不切實際的預期,我們能做的隻有保持冷靜,挖掘出其真實的麵貌,然後盡可能在談一件事情之前,先弄明白這件事情本身。

AI 就是一個典型的例子。當我們說 AI 的時候,我們在說什麼?

Winter is (not) coming

AI 的概念最早被提出是在 1956 年。從那時到現在的幾十年裏,AI 領域多次給出了美妙的承諾,與之相伴還有大批的科幻作品和他們塑造的深入人心的 AI 形象。然而這些承諾不斷在勾起人們的希望後破滅。隨後,就是一次次人稱 AI Winter 的冷卻期。這個詞源於 Nuclear Winter。考慮到 1950 年代的時代背景和冷戰引發的人們對 Nuclear Winter 的恐懼,AI Winter 這個稱唿本身就說明了當時人們的失望之情。

鳥與空氣動力學

早期的 AI 是一種自上而下的思路。和今天大部分寫程序的思路類似,實質上是通過許多類似 If… Then… 的命令,給電腦製定一套規則。例如最早期的應用:給翻譯機器人寫明大量語法規則;或者人為規定出較小的決策空間(Micro-world),在這個有限可控的空間裏麵,為機器人編寫行為規則;或者在一個狹窄的領域裏麵模仿專家的思路,構建一個專家係統(Expert System)。

工程師希望這套規則的完備程度足夠高,可以讓 AI 應對不同的環境,例如讓機器理解不同語境下句子的含義。

然而,這種思路幾乎沒辦法應對實際情況。語言中存在大量的情景以及不同情景下微妙的差異,這時候哪怕用一整個團隊專門為機器寫語法,效果仍然很差。在一個狹窄領域下的專家係統也絲毫不能幫助人們打造其他領域下的 AI。離開了人為限定的小空間,機器人的表現就會馬上出現大量錯誤。

本質上,這種自上而下的思路源自人們對 AI 的一種基礎設想:人類智能最突出特征是邏輯推論能力,那麼把這些推論方法,例如語法規則和決策方法寫入 AI 程序是非常自然的選擇。吳軍博士把這種方法稱為「鳥飛派」,意指人類最早通過觀察鳥是怎麼飛的,進而進行模仿。這當然是不成功的,直到後來人類對流體力學的掌握,才讓人類飛行的夢想邁出第一步。

畢竟人類想要的是飛行,而不是成為鳥類。

這種思路現在雖然已經變成了弱勢,但要知道直到 1997 年,擊敗國際象棋大師 Garry Kasparov 的 IBM 深藍電腦使用的還是這種傳統的 AI 技術。2011 年,成為 Jeopardy 遊戲冠軍的 IBM Watson 使用的也是傳統的 AI 技術。

自下而上的思路:人工神經網絡

今天,AI 快速發展的基礎是人工神經網絡(Artificial Neural Network)。與上麵提到的思路相比,神經網絡是一個自下而上的思路:雖然邏輯推論是人類高級智能的突出表現,但人類在心智發展的最初時期仍然是通過觀察世界,進行歸納推理,逐漸形成基礎認知的。神經網絡與這一點類似,以大量的數據為起點,逐漸演化出結論。這裏的大量數據,實際就是關於真實世界的樣例。此外,神經網絡本身也是對人腦神經元的一種比較粗糙的模擬。從這個角度看,非常符合人們對創造智能的直覺。

雖然人工智能從近幾年開始引爆,但神經網絡的概念早在 1943 年就被提出了。1957 年,康奈爾大學的 Frank Rosenblatt 第一次用算法精確定義出了神經網絡,並在一年後建成了第一個基於神經網絡的機器人 Perceptron。後者的基礎其實就是單層的神經網絡。

那個年代裏,占主流的是上麵提到的自上而下的邏輯推理思路,神經網絡方法一直受到排擠。60 年代末,AI 的先驅 Marvin Minsky 出版了《Perceptrons》一書,表達了對神經網絡的質疑,其中最重要的理由就是:神經網絡要求的龐大計算量在那個年代幾乎不可能實現。

這本書幾乎讓神經網絡的發展幾乎徹底停止,而且一停就是 10 多年。直到 1986年,Geoffrey Hinton 第一次成功用反向傳播算法(Backpropagation)訓練了多層神經網絡。隨後 1988 年,身在貝爾實驗室的 Yann LeCun 使用卷積神經網絡,在圖片識別問題上有了突破。最突出的一項運用就是用機器讀取手寫支票和信封上的郵編。

It was very difficult at that time (1983) actually to publish a paper if you mentioned the word ‘neurons’ or ‘neural nets.’

—Yann LeCun (楊樂村兒),Director of AI @Facebook

這些理論突破引發了一波對神經網絡的熱情。反向傳播算法迅速成為了非常主流的東西,一直用到現在。但那時候神經網絡並沒有被大規模用在工業界。由於優化過程中的效果不佳以及一些過度擬合(overfitting)問題,神經網絡在圖像和語音識別上的表現遠不及同時期 Support Vector Machine 技術。後者得到了學術界的認可。

到了 1990 年代和 21 世紀初,神經網絡在學術界已經不僅僅是被忽視,而是被鄙視的了。一篇帶有神經網絡字樣的論文送到相關的學術期刊,多半很快會被直接拒絕掉。值得注意的是,這個階段的學術界的注意力都在算法的革新上,而不是今天深度學習技術中的數據和計算能力。這可以理解,那時候隨便訓練一個神經係統動輒就要花幾周時間,再擴大數據量還怎麼玩?

神經網絡突圍

所幸這時候行業內的另一個玩家站了出來。1999 年,Nvidia 第一次提出並在隨後成功普及了 GPU 的概念。GPU 的核心目的是處理電腦遊戲中同時出現的大量像素點。換言之,GPU 適用於大規模的並行計算。神經網絡的計算主要是有許多大量的矩陣運算組成,正是 GPU 所擅長的並行計算問題。我覺得完全可以這麼說:遊戲玩家們為人工智能的進步做出了資金上和技術上的重大貢獻。(Thank you, gamers!)

2007年 Nvidia 推出 GPU 軟件接口 CUDA ,開啟了 GPU 在 AI 領域的廣泛應用。吳恩達(Andrew Ng)在 2009 年的一篇論文指出,使用 GPU 的運算速度是傳統雙核 CPU 的 70 倍。

2012 年,Geoffrey Hinton 帶著兩個學生以非常誇張的優勢獲得基於 ImageNet 的圖像識別競賽 ILSVRC 的第一。他們首次將深度學習的新技術用在 ImageNet 上,識別錯誤率隻有 15.3%。

從這時起,雖然尚未進入大眾視野,深度學習已經在行業內部掀起了風暴。

2015 年底,來自微軟亞洲研究院的團隊使用深度殘差網絡(Deep Residual Learning),在大幅降低計算量的前提下,將 ImageNet 圖像識別的錯誤率降到了 3.57%,這已經低於了正常人的錯誤率 5%。

另一個裏程碑式的事件是 2012 年吳恩達與學生聯合發表的實驗。他們用 1000 萬個 YouTube 視頻訓練了一個 9 層的深度神經網絡,這個網絡的參數(weights)數量達到了 10 億。這個神經網絡後來在沒有人工幹預的情況下自發識別出了大量物體,其中最多的是貓。後來許多人把這個試驗戲稱為「Cat Experiment」。

其他的幾個重要突破

1997 年,Jürgen Schmidhuber 提出了長短期記憶模型(LSTM, Long Short-Term Memory)。LSTM 作為循環神經網絡(Recurrent Neural Networks)的一種,被廣泛用在處理序列數據的問題上,例如語音識別。

2015 年底,當時還在百度的 Dario Amodei 宣布他們的語音識別模型的錯誤率已經降低到了 3.1%,低於正常人的 5%。

可能最具標誌性,也最為大眾所知的就是今年 AlphaGo 戰勝李世石的事情了。AlphaGo 所做的就是把不同的工具和算法組合起來,結合了深度學習網絡,增強學習(Reinforcement Learning)和 Monte Carlo Tree Search,起到了非常好的效果。

AI 技術常識

於是,這兩年看 AI 領域的投資人很容易會發現 AI 領域的兩個不相容的問題:一邊是 AI 的快速進步,更好的實用效果和更廣泛的應用,以及投資人對 AI 的追逐。另一邊是理解 AI 技術的高門檻和它的快速變化。

這兩方帶來了非常麻煩的問題。深刻理解 AI 技術並不確保能推演出 AI 在商業策略上的價值,而享受 AI 帶來的便利和驚喜,比如 Siri 和 Amazon Echo,也真的不需要理解什麼是CNN(卷積神經網絡),就像大部分互聯網用戶即使不知道 TCP/IP 為何物也不妨礙上網一樣。

但如果想在 AI 尋找機會和創造價值,就必須得明白自己正在說的是什麼。AI 在技術層麵是一個快速變化的東西。成熟互聯網的基礎設施化和中性化使得投資人可以把技術視為電力一般的事物,從而讓商業邏輯和策略的推演成為可能。但 AI 幾乎每一年都在變化。現在我們看到的許多成就都是近幾年才剛剛出現的。

所以,必須一定程度上理解 AI 的技術本身,而不是把它視為和互聯網一樣的萬能鑰匙。

AI will transform many industries. But it’s not magic.

—吳恩達, 2016.11.9, HBR

來源:Nvidia

什麼是 AI?

AI 作為計算機,應用數學和統計學的交叉部分,其實隻是一種技術手段。

可以說 AI 已經是現實中的一部分。Google 的搜索排序,Airbnb 的租房推薦價格,iPhone 照片的自動分類,Pinterest 的圖片搜索,都是 AI 技術在我們日常生活中的直接體現。對於今天的我們來說,大部分軟件,大部分係統,都有 AI 成分在裏麵。

另一方麵,AI 是一個非常寬泛的名稱,它包含了所有相關的技術:機器學習,搜索與最優化,Constraint Satisfaction,邏輯推理,Probabilistic Reasoning,控製論等等。其中第一項機器學習,才包括了我們今天經常遇到的概念:深度學習(Deep Learning),人工神經網絡(Artificial Neural Network),回歸,決策樹,SVM,PCA,貝葉斯網絡,增強學習(Reinforcement Learning)等讓人頭大的東西。而在這之中,人工神經網絡正是深度學習的根基。

什麼叫神經網絡?

神經網絡不容易被文字定義,可以把它理解成一種對大腦處理信息方式的模仿。與大腦神經元類似,神經網絡的基本單位是節點;與大腦神經元之間用來傳遞信號的突觸(synapse)類似,神經網絡的節點之間信息傳遞的方式用權重(weights)表示,權重也是一個人工神經網絡的主要參數。

神經網絡有一個非常核心的特點:聯合表達(Joint Representation)。意思是說當我們用神經網絡趣表達一個概念時,不是用「一個神經元存儲一個定義」這樣的一對一形式,而是讓多個神經元,甚至整個網絡共同表達一個定義。

什麼叫深度學習?

「深度」最淺層的意思是:這是一個由許多層組成的神經網絡。往深了說就有非常瑣碎的特性,但其中重要的一點是:由於深度神經網絡的多層次特性,它可以把一些認知上的抽象概念進行層次化的表達,這一點下麵會說明。而所謂深度學習,指的就是訓練這麼一個多層神經網絡,讓它有能力對世界做一些判斷。

什麼叫(有監督地)訓練一個神經網絡?

所謂訓練,是訓練一個神經網絡中各個節點的權重(weights)。可以把權重簡單理解成某個輸入信息的強度。

例如,我們想訓練一個深度神經網絡在照片中識別出貓。首先我們得有一堆人工標注過的圖片,這些標注隻有一個信息:圖片裏的是不是貓。

先把圖片的像素喂給神經網絡的第一層,同時對每一個節點分配一個權重。這時候第一層的節點可能會尋找圖片中物體的分界線,例如不同顏色之間或者明暗分別處。隨後這一層把信息傳遞給第二層。

第二層可能會分辨這些分界線形成的輪廓,例如形成的銳角等。

再往上的各個層級可能會尋找更加複雜的模式,例如輪廓形成的各種形狀,甚至一些具體屬性,例如眼睛和鼻子。

每一層都把信息向上一層傳遞。直到最後一層吸收下層的所有關於模式的信息,輸出一個結果:這應該是隻貓。

這時候每一個節點都有一個特定的權重。把這個結果和圖片的標注做對比。如果與標注不一致,說明神經網絡的答案錯誤。這時候把這個錯誤信息沿著神經網絡反向傳遞回去(Backpropagate),每一層的神經網絡必須對識別出的東西重新做判斷。這個過程會不斷重複,節點的權重也會不斷發生變化,直到最上一層的輸出與圖片的標注相符。

所謂的學習和訓練,正是這種不斷地反向傳播和參數修正。

上麵提到,深度學習最重要的特性就是多層次的表達。在這個訓練過程中,可以清楚看到,越往上的層級,識別出的東西就越抽象和複雜。

來源:Nature

什麼叫做監督學習和無監督學習?

什麼是監督學習(Supervised Learning)?簡單地說,如果在訓練一個神經網絡時使用的是經過人工標注好的信息,例如上麵說的,給一張貓的圖片標記了一個類別「貓」。這樣神經網絡通過與標注的比對不斷修正自己的模型,進而達到學習的目的。目前大部分已投入商用的深度學習技術主要使用的就是這種辦法。

但無監督學習(Unsupervised learning)是大家更加感興趣東西。它希望做到的是不用讓人類為計算機標注數據,而是讓計算機在大量數據中自己找到模式,生成對世界的認知。上麵說到的 2012 年 Google 的神經網絡就是在無監督的情況下識別出了「貓」這一類別。

兩種方式的核心都是:數據和算法。

AI 的真實現狀

隻有在了解了 AI 的曆史和技術常識後,才能理解為什麼突然之間 AI 有這麼快速的發展。這點我們在之前的文章中也提過,主要有三個原因。

計算能力提升:摩爾定律,GPU 的性能提升和普及,大規模並行計算的實現。

數據的大量增長:巨量數據產生源自互聯網、移動設備的普及,各種設備的傳感器,以及物理世界的數字化,包括圖書,聲音,視頻,醫學法律檔案等等。

算法的革新。

這三個環節可能發揮了幾乎同等重要的作用。然而如果從整個 AI 的發展曆程看,前兩點才是這幾年 AI 技術的核心特征。那麼誰在這兩點最具備優勢?顯然,答案是巨頭們。

從 2012 年起,矽穀科技巨頭開始布局 AI。Google 最早開始行動,2012 年底招募了 Geoffrey Hinton 的團隊,李飛飛女士也在上個月加盟。Yann LeCun 與 2013 年底開始帶領 Facebook 的 AI 團隊,吳恩達則在 2014 年成為百度的首席科學家。

劇烈變動的不僅僅是專家和大牛們的頭銜。AI 的快速發展進一步推動了早已在科技行業成為主流的兩大趨勢:開源和雲端化。

開源對巨頭的好處顯而易見,不僅能雲集所有人的智慧,提前鎖定出色的工程師,還能夠在行業的早期成為技術標準的確立者。對普通人來說,開源則意味著你可以免費接觸到 AI 的開發工具和社區。現在,Google 的開源 AI 框架 TensorFlow 在 Github 上的星標數已經高居第二。

另一方麵,雲計算時代的三大廠 Amazon,微軟和 Google 先後發布了 AI 和深度學習的雲端產品。基礎的 AI 服務,例如語音識別、圖像識別、翻譯、文本識別等,都非常適合部署雲端,成為標準化的產品。這個思路與雲計算本身的特性,以及 Twilio 和 Stripe 對通信和支付在雲端的標準化是一致的。所以對三大廠來說,在 AI 的世界裏提供基礎設施是最自然不過的選擇。

AI as a Service,來源:CICC

應對 AI 的正確姿勢

如何在 AI 的時代生存?

一秒鍾任務

按照吳恩達博士的說法,目前 AI 技術中進步最快的部分其實集中在某一類問題上:輸入一些數據 A,然後 AI 給出一個簡單的結論 B。

這個 A 到 B 的過程,反應在現實中是什麼樣的任務?經驗上說,如果一項腦力任務是一個人隻需要花不到一秒鍾就能完成的,那麼現在的 AI 技術就很有可能會替代它。

可以說現在最流行的,進展最大的 AI 的技術將會出現在每一個 app 中。這些技術主要就是上麵說到的「1秒鍾領域」。實際上很多工作都屬於這一類。這聽起來好像不太符合直覺,但仔細一想好像確實是這樣。在監控視頻中識別出嫌疑行為,確定汽車會不會蹭上旁邊的車輛,識別出某一種物品,都屬於這一類的任務。

在目前的 AI 技術下,最重要的是要考慮到 AI 怎麼樣才能與自己的商業策略結合的更好。換句話說,需要在自己的整個業務流程中找到上述這樣的 A 到 B 的任務,並且能找到與這個任務相關聯的大量數據。

AI First 的真正含義

Google 在最近的發布會上宣布要變成 AI First 的公司。但 AI First 的含義是什麼?

上麵說到的神經網絡的曆史中,哪怕是在聰明人雲集的學術圈,幾十年來大部分人都不看好神經網絡的前景。AI 行業的翻轉正說明了世界的複雜性和偶然性,也說明是不易被預測的。

正是這種複雜性讓我相信,與我們正身處其中的 Mobile First 不同,AI 技術的快速變化使得對其短期未來的預測都是不可靠的。此外,深度學習領域中,實踐成果已經走到的理論的前麵,很多新的突破來自於借助龐大計算能力的不斷嚐試。因此,新的東西不斷出現,許多所謂的行業積累也有可能會被迅速取代。

在這個不確定世界中,我們要從 AI 的價值鏈條中找到一些相對確定的東西。

AI 的價值鏈條主要有三部分:算法(技術),計算能力,數據。考慮到巨頭的快速反應,已經上麵提到在雲端 AIaaS 的推動,目前幾乎可以肯定,AI 底層的算法和計算能力最終將會是無差異的。對大部分人來說,這兩部分會被抽象出來,成為基礎設施,成為一個界麵或者說 API。

以往大家都認為隻有巨頭才有發展 AI 的機會,因為他們有人才,有數據,有大量硬件資源保證的計算能力。現在,開源框架快速發展,AI 基礎基礎和計算能力持續雲端化,加上算法的不斷進步,包括小樣本學習的技術,所有垂直行業的公司,包括醫療,合成生物學,金融,零售,能源,農業等,或者說理論上所有需要模式和信號識別以及最優化的領域,都有屬於自己的機會。

對投資人和創業者來說,在弄明白 AI 的基本常識後,更重要的還是價值鏈條剩餘的部分:數據、垂直領域的算法,以及對垂直行業的深刻理解。如何在細分行業中獲得壟斷級別的數據?如何在垂直領域(例如癌症檢測)找到最適合的算法?如何製定相應的商業策略?

AI 的終極形態

最後說一點玄乎的東西。我們一直能在新聞中看到 Elon Musk、Bill Gates、Stephen Hawking 等大牛對超級人工智能的擔憂。對此大部分 AI 從業人員是不以為然的。吳恩達博士說過:

The reason I say that I don’t worry about AI turning evil is the same reason I don’t worry about overpopulation on Mars.

吳恩達博士的意思應該是不希望對超級 AI 的恐懼耽誤了對 AI 的投入,這當然是理智的觀點。我認為長期來看,人類還是需要正視 AI 可能帶來的威脅。這種威脅可能會在 AI 為人類帶來大規模的自動化以及幫助人類提升自身智能這一段蜜月期後,才會出現。

但我看到的 AI 的未來形態並不是「西部世界」、「Blade Runner」或者「Ex Machina」裏麵這樣的人造人,他們模煳了人與機器邊界,有自己的情感和自我意識,逼迫人類去詢問一些關於自身的終極問題。

我認為 AI 的未來看起來不應該是人類的模樣。相反,他們的外形應該與人類相去甚遠。他們不需要一個實體,而是存在於機房的服務器中。也許看起來就像「2001 太空漫遊」的 HAL9000。

HAL9000

AI 作為一種智能也不需要所謂的有情感(Sentient)。人本身的情感機製即使存在,也是不容易被輕鬆定義的。所以 AI 為什麼要有情感?順著這個思路考慮下去,我們就會問出一些匪夷所思的問題出來:生活在服務器中是什麼樣一種體驗?404 頁麵會疼麼?機器人會夢到機器羊麼?

AI 隻想要執行我們給它的目標函數。做到了目標函數,那就是好 AI,高智能。如果一個 AI 在這個過程中毀滅了人類,我們不能認為 AI 在情感上希望毀滅人類,我們要想的是:目標函數到底出了什麼問題?

借用 Eliezer Yudkowsky 的話:

The AI does not hate you, nor does it love you, but you are made out of atoms which it can use for something else.

2012 年的 Google Brain 實驗中,使用的神經網絡的參數高達 10 億個。而人類大腦皮層有接近 150 萬億個神經元突觸。看起來似乎很遙遠,但要考慮到,計算能力是以 10 年千倍的速度在提升。按照這個速度,達到 150 萬億這個量級,隻需要 20 年左右。到了那個時候,人工神經網絡應該能做到一些現在的我們意想不到的事情。

堅持看到這裏的,我為你奉上一個電影「Ex Machina」中的人工智能梗...

人工智能專家 Nathan 與自己的作品 Kyoko

----

雲創股(VentureShares)由著名天使投資人、前騰訊聯合創始人曾李青投資,專注於矽穀 Pre-IPO 獨角獸股權投資。目前已完成矽穀及國內等十數個項目交易,累計交易額近億美元。

最後更新:2017-10-08 01:45:27

  上一篇:go 人工智能:想不到我血洗圍棋界,竟然還是考不上大學?
  下一篇:go 塗子沛:人工智能推薦的藥,你敢張嘴就吃?