閱讀88 返回首頁    go 技術社區[雲棲]


地平線餘凱:自動駕駛處理器的“三國時代”| 清華人工智能研習社

昨天,匆匆從機場趕到清華的地平線創始人餘凱,用這樣一句話為其在清華x-lab人工智能研習社的講座開場。

這位曾經在百度開創了深度學習研究院(IDL),又進一步開拓了中國最引人注目的自動駕駛創業公司“地平線”的連續創業者略帶抱歉的稱,自己不擅長講述商業模式、創業感悟、經曆。自喻為“技術人”,餘凱在清華的這次講座更多的偏向技術內容,而在清華,這顯然比“創業故事”更令現場聽眾振奮。

af9d9e912631187c60107d103ac43e9c47149913

圖:11月9日,地平線創始人&CEO餘凱在清華做了題為《自動駕駛處理器:邊緣計算的革命》的講座。 劉涵 攝

除了技術上的共鳴,在清華這場講座中,餘凱還非常貼心的提出了“五道口計劃”:“在美國有曼哈頓計劃,中國有“五道口計劃”,五道口路口非常複雜,有行人,有車,還有火車。所以什麼時候自動駕駛的車能夠穿越五道口的話,我覺得這個事就搞成了。“

餘凱非常看好自動駕駛AI核心處理器的市場,“我希望把我自己後麵20年的時間,花在一件事情上,這個事就是給自動駕駛去打造人工智能核心處理器。“餘凱把今天智能芯片戰場比做“三國”:“英特爾更像是曹操,因為它是自動駕駛計算領域裏麵真正的實力之王;Mobileye更像是劉備,雖然是皇親國戚,但實力卻是最弱的;NVIDIA像孫權,占據了GPU的寶地,實力雖然不如英特爾,但也算是可圈可點。”

大數據文摘將餘凱本次講座內容和現場問答內容整理如下,在不改變原意的前提下有刪改:

0a283c498d067a92669fcbbdfbf2a02d52b3d6bd

感謝邀請,今天有機會到這邊來跟大家交流一下,其實一開始的時候不知道講什麼,因為如果我要講的話,講著講著隻能講技術,講創業是我最不會講的,所以關於商業模式、創業感悟、經曆都不是屬於我擅長的,所以今天如果講的不是那麼帶勁兒的話給大家提前抱個歉。

我希望把我未來20年的時間,花在給自動駕駛打造人工智能核心處理器這一件事情上;我希望在2030年的時候,90%以上的汽車都是四級自動駕駛;我希望那個時候所有的車上都是我們做的人工智能處理器。

對於自動駕駛,這個事情本身是屬於硬科技。另一方麵是不是真正的用技術驅動這件事情。那麼,什麼是硬科技呢?硬科技是真正定義一個國家、科技工業實力的技術。比如今天如果處在戰爭狀態,我們不會認為微信斷了是個問題,但是如果飛機飛不起來、汽車跑不動、指揮係統不能運轉就是一個問題了。所以華為就是一個硬科技,有了華為國家指揮係統就會完全靠自主的設備去運行了。

我們希望打造三個核心競爭力。首先是軟件算法,從感知、建圖、定位到決策,本質上來說是軟件算法、人工智能的問題,我們希望軟件算法未來可以實現高效處理、高性能、低消耗。除此以外還有芯片、雲端和地圖的構建。

自動駕駛處理器的“三國時代”

人工智能芯片的主要玩家有兩大陣營,英特爾、Mobileye、Nvidia,這有點像自動駕駛處理器的“三國時代”。英特爾更像是曹操,因為它是自動駕駛計算領域裏麵真正的實力之王,不僅僅有強大的CPU計算,還有自己獨門的5G專利,收購了德國公司、有FPGA,甚至還是整個摩爾定律的推動者;Mobileye更像是劉備,雖然是皇親國戚,但實力卻是最弱的,Mobileye從出生的第一天就奔著自動駕駛去了,一直為汽車做人工智能的處理器。NVIDIA像孫權,占據了GPU的寶地,實力雖然不如英特爾,但也算是可圈可點。

實際上人工智能處理器在以前隻是一個硬件的事情,但最近開始出現了一些野蠻人,一些公司的核心本來是軟件背景,但卻不務正業做人工智能處理器,比如Google就去做了TPU。而地平線的人以前在百度等互聯網公司做的是純軟件,現在也衝進來做了人工智能的處理器,但人工智能處理器的本質並不是一個硬件的事,它是一個軟硬結合的事情,是一個由場景驅動人工智能應用的軟硬件技術革命。

而在具體的芯片設計裏麵,包括脈動陣列、3D堆疊都在計算機體係架構和處理器智能設計百寶箱裏出現過,而像Nvidia這樣大規模的並列運算也有。在今天這個事情開始變得非常性感的本質原因是人工智能的時代到來了,場景的應用驅動使得這些硬件被拿了出來,組合成了軟件、硬件這種自動計算平台與解決方案。


趨勢一:新摩爾定律

回顧一下正在發生的這些趨勢,我們會發現這是一個大的背景,而促使我們想要去做這些事情的趨勢是什麼呢?第一個趨勢是新摩爾定律,在過去的半個多世紀的時間裏,摩爾定律的發展是支撐了整個信息產業背後發展的主要驅動力,這使得很多了不起的事情發生了變化。而我們現在處於的一個位置,是從去年開始摩爾定律開始比較緩慢的發展,核心的原因是物理極限已經逼近,接下來需要一個新的摩爾定律,一個核心的發展趨勢是從過去的邏輯計算往未來的人工智能計算發展,人工智能計算的發展並不是工藝的改變,而是體係架構與軟件的配合,使得它實際的計算效率不斷提升,從一定意義上來講,在往專用計算的方向發展。

舉個例子,生物體的大腦一開始隻是單細胞生命,大腦頂多是一個細胞,而到現在人類的大腦發展到了1000億的神經元。這個規模在不斷變大的過程中國還產生了另外一個分工的細化,產生了視覺神經、聽覺神經,前幾年有一個諾貝爾醫學獎發現大腦中有一個專門的地方是GPS定位係統。我們需要專門發展這個事情,針對這個問題不斷的去提升,與人類社會一樣,去衡量一個文明的發達程度,新的摩爾定律也會沿著這個繼續前行,實際運算效率還會不斷提升。

當人工智能驅動整個計算繼續以一種新的摩爾定律形式往前發展,我們要去思考為什麼人工智能計算提升的效率要走哪一種專用化的路線,而不是和過去一樣設計處理器架構、通用處理器架構,隻是使它盡量滿足寬泛任務的需求。至於為什麼使人工智能往專用的方向走,首先我們要去思考一個問題,我們一般喜歡類比一下人類的大腦,因為人類的大腦是我們知道的宇宙中最聰明的“計算設備”,但人類的大腦是一個專用的處理器,並不能作為解決很多任務的通用處理器。比如看一張學生的表格,隻能看到這個學生的年齡、哪裏來的,並不能知道這個學生的全貌。

另外,我們再看另一個例子,研究表明,漢字的序順並不定一會影閱響讀。比如當你看完這句話後才發現這裏的字全都是亂的)大家對順序不敏感,並不是按照順序掃描的,我們是全看,並且我們還有腦補的能力,非常奇妙,我們為了對圖像加速要並行處理,這與遠古逃命非常相關,獅子看到我的時候我一定要跑的非常快,不能掃描完這裏再掃描另外的地方,我得加速運算,才能逃命。而我們平時用的語言有一個語言模型,這個語言模型給我們腦補的能力。但腦補的能力有的時候會給我們帶來很大的麻煩。比如說大家開車的時候,如果前麵的人突然急刹車你會怎麼辦?我們可能反應不過來,因為大腦每時每刻都在腦補,使得在腦補未來的時候就在很多時候可以省一點運算量,就會少花一點血脈膨脹在腦子裏,可以把更多血液的輸送養料在身體其他部位滋養。所以人腦裏有很多的機製去加速特別重要的任務,去提升它的效率。從更少的功耗做更多的事情,隻對一部分事情比較關心。

其實這些都是很重要的一個機製,這些機製可以很好的提升大腦硬件效率。這啟發了我們去做自動駕駛的人工智能計算,因為它就是幹那麼幾件事,從自動駕駛處理器到放歌給你聽,把從感知到決策這件事情做得很好。如果直奔這些任務去做的話,能夠把效率做的很高,可靠性做的很高。通常我們可以知道,如果去做通用的設計跟專用的設計,效率在相同的工藝上其實會有三個數量級的差別。

我們看到在過去五六年的時間裏,在整個計算這塊在發生著很有意思的革命,基於人工智能場景的需求導致計算對硬件驅動,CPU、GPU、FPGA到TPU、BPU,這是我們看到的趨勢。

趨勢二:計算開始走向雲端

我們看另外一個趨勢,這個趨勢我也比較關心。在互聯網還隻有PC的時候所有計算都叫桌麵計算,但有了微軟、瀏覽器以後,很多的計算開始往雲端走。到了移動時代有了更多的計算在雲端,這個時候雲計算成為了一個主流,這是本地分離的計算到中央雲端的計算。

未來的趨勢是什麼呢?我們總是要判斷未來的,如果未來判斷錯了的話以後就做的不是很好。手機從功能機變成智能機,汽車也會從功能車變成智能車。最新大疆的機器人揮揮手能朝你飛過來,還能排各種形狀,主要是因為他識別你,他知道感知環境,包括其他很多設備。你也會發現大量的計算開始往前端走,因為這裏需要的實時性、低延遲、網絡帶寬始終是一個問題,不要說其他的,在這樣的一個樓宇裏,連WiFi都是個問題,有的地方好,有的地方信號十分不穩定。

但汽車這種設備關乎生命安全,不能有小朋友突然橫穿馬路把信號再傳回去處理,萬一這個時候信號不通呢。同樣的原因,比如像大的互聯網公司會講,像百度會講高精度地圖,可是大家想想看,自動駕駛是不能夠依賴於高精度地圖的,因為車的安全性本質決定了一定要在不聯網的狀態下足夠安全,必須完全依賴本地的傳感器跟計算。所謂天下大事分久必合,合久必分,很多計算開始往終端走。有的人會問我,說餘博士,未來到底是終端計算重要,還是雲端計算重要,這個問題對我來說就好像說未來男人重要還是女人重要一樣,這個是沒有必要回答的問題。一定有一些需要本地處理,實時的而且是較為有規則的計算在前端,需要不斷的去更新,並且它的任務要非常靈活,這是我看到未來雲端計算的形態。

講到這麼多終端,最令我興奮的是手機已經改變了這個世界,未來智能終端已經真正能夠影響全人類,並且是一個人從產房裏接回來送到家裏跟最後進殯儀館,真正影響著每個人的每一天。另外一個則是汽車。中國是世界汽車消費的第一大國,我們去年一共有2800萬的新車賣到市場,美國則是1700萬輛,這是巨大的差距,而且這種差距還在拉大,所以有時候一種樸素的智慧還是蠻厲害的,毛主席曾說過“人多力量大,多生孩子,多生娃。”現在證明是很正確的。

當然還有一些其他的方麵,比如中國是一個十分特殊的市場,安全導致的攝像頭產業在中國非常大,一年有1個億的攝像頭被部署,當然這裏大量分析結構化的計算都要在前端來部署,為什麼在前端部署到雲端計算呢?想想看,其實在很多場景數據是不需要存儲的,比如有一大類的攝像頭應用就是部署在商店裏,去分析客戶的行為。客戶行為在貨架裏的行為,實際上本質上是把線下的行為數據化、現象化了。這樣就可以用很多大數據的手段去分析。這裏不需要存儲數據,隻需要直接把數據分析完放在雲端,所以在數據采集的時候直接計算就可以了。當然還有很多其它的原因,比如說孫正義認為未來更加激動人心的是智能終端未來的數量會比人的數量還多,這裏有大量的計算必然在前端去做。

趨勢三:邊緣計算會更快、更高、更強

還有一個趨勢也非常顯而易見,過去我們在雲端,包括以前的桌麵,比如286、386、486、586,邊緣的計算也會更快、更高、更強。比如像自動駕駛的汽車傳感器會武裝到牙齒,特斯拉的一款車從1個攝像頭武裝到12個攝像頭,並且未來象素也會越來越多,自動駕駛的汽車將來在高速上的速度會越來越快,因為它高度協調。這對處理數據量的實時性要求是不斷在增加的,所以會看到一個很長時間的爬坡過程。

從我們角度來講,我們希望在麵向讓我最興奮、最性感的智能設備上裝上本地計算的處理器跟算法,使它足夠安全。同時也能夠不斷跟雲端數據以及模型更新。就像現在更新APP一樣,APP都在本地計算,更新都在雲端。而我為什麼把公司的名字叫地平線(Horizon  Robotics)呢?因為自動駕駛的汽車不光是影響力最大的,對人們的生活影響力也最大,同時也是最難的,失之毫厘,差之千裏,這與人的生命有關,對實時性、延時、效率、可靠性要求完全是不一樣的。如果能把這個問題讓機器人去處理。很有可能蘋果園裏摘果子的機器人用的就是我們的處理器,所以我們希望花十年、十五年的時間去把這件事情做好。我們需要跟過去做一個了斷,過去隻是幫人幹純軟件的,從來不關心硬件是怎麼回事,我們現在要特別的懂硬件,特別的琢磨硬件,不光是琢磨,而且要自己來造、設計。這就要求我們團隊擁抱所謂全棧式的技術研發,從軟件、硬件到係統軟件甚至是數據中心的處理。

自動駕駛的軟件設計原則

從軟件角度來講,我們認為自動駕駛的軟件設計需要有幾個原則。

1)首先是所謂的透明可追溯,一旦一個問題發生,我希望知道它是什麼原因,我不想認為它是我的黑箱,如果我麵對智能的機器是我不可理解的黑箱的話,我會覺得很恐怖。電影《西部世界》裏麵,每天人們把出了問題的機器人拿回來搞清楚為什麼那麼做,如果搞不清楚的時候,生活是處在非常恐怖的階段。那個時候是人跟機器共存的世界,它對我們來講是不可知的。軟件係統怎麼設計這樣一個框架使得這個問題可追溯的尤為重要,大部分做人工智能的人其實不關心這個問題。能夠找到原因,理解到為什麼,找到去幹預它,去改善它,去控製它的方法是未來人跟機器共存的一個很重要的問題,也是挑戰。

2)另外這樣一個軟件係統一定要能夠不斷自我提升、演進,而不是說完全的用什麼數據訓練它那樣。它能夠在駕駛過程中不斷出現各種不同新的路況,並且不斷的去提升自己,所以端到端的學習我們認為很重要。

3)另外是我們要使得這個軟件在硬件上去運行的話,能夠足夠的高效,用盡量少的energy處理比較高的計算流量。這是我們比較關心的三個方麵。

首先,我們結合深度神經網絡跟貝葉斯網絡,在80年代末的時候,神經網絡當時非常的時髦,反向傳播算法出來以後大家覺得這件事情真的很牛,到90年代的時候深度學習、神經網絡就落寞了,因為這個東西太難搞了,訓練也很麻煩,訓練出來的模型也不是那麼好用。在90年代的時候,其實貝葉斯網絡當時是非常流行,我記得當時應該是兩個時間最流行,在機器學習領域,一個是貝葉斯網絡,一個就是支持向量機。貝葉斯網絡是一個框架,這個框架應該跟深度神經網絡有非常好的結合,這個結合使得整個網絡結構更加的模塊化,而且模塊跟模塊之間可以有清晰定義的,並且可以理解的接口,也可以使我們容易識別,可以用數學非常優美的去駕馭它。

06749a9dc15f0e8aaef2be5a110ca9e87d71a771

舉一個簡單的例子,比如說在自動駕駛裏麵臨的問題從傳感器的數據,把這些數據做成HBNN,用D表示,狀態的描述是States,S,車的指令是A。通常來講一個貝葉斯網絡所描述的是聯合分布,一堆的decomposed的聯合分布。這裏的結構如果說我知道sensory data,我可以知道distribution。聯合分布可以分解成sensory data。有這樣一個公式P(D.S.A)=P(D)P(S/D)P(A/S)。

我們構建貝葉斯網絡,大概由幾個模塊構成,模塊跟模塊之間是有清晰的定義,真實的網絡比它更複雜,這裏有很多網絡結構。但是我們定義它傳導的都是概率的執行度。這是一個很大的混合網絡結構,好處是每個子模塊輸出行為對我來講都是可知的,同時網絡子模塊跟子模塊之間的耦合是符合比較清晰的貝葉斯網絡的結構。還有其他的好處,我每個子模塊可以單獨訓練、駕馭。不會使得一個模塊影響整個模塊。

還有其他的好處,比較一致性的方法是把Rule-based  system加進去。比如紅綠燈一定要做這個。在每個作網絡結構內部可以做一些事情,一個車的檢測分解成很多子模塊,這幾個模塊是不是會限製幾個模型的靈活性。這個問題也可以解決,可以用一個neural的網絡結構去做,這會有足夠的靈活性。如果沒有它的話就是一個黑箱的神經網絡,如果有這個的話可以把裏麵的靈活神經找出來。

未來網絡會支持端到端的學習,可以通過仿真、深度學習從後麵一直推導到前端的物體識別。未來實際在這樣的一個模型上不斷的去自我學習,自我訓練,甚至這裏關鍵目標、物體的識別都不需要去用人為來標,完全是自學習的狀態。


前麵講的是軟件,相應軟件的設計我們要最後體現到硬件的設計。從感知的二級自動駕駛架構芯片的設計到三級的自動駕駛跟四級的有限場景自動駕駛的芯片架構設計,這裏更加強大的感知,並且是多通道的,但同時是支持多傳感器融合,也有簡單的決策。四級的自動駕駛,除了感知,需要維度更豐富。更重要的是決策會更難,更多的計算是在決策。這裏決策的問題在複雜場景下自動駕駛的決策問題,你開車的時候跟周邊所有的行人跟車都是博弈的狀態,比如我在開車,要換到別的道上,我通常並道看旁邊的車是不是讓,通常在北京不讓,不讓的時候就再找機會,實際就是“談判”,這個過程非常複雜。

1e00709d381478232b94f143dd01f08847238cb2

圖:現場聽眾交流 劉涵 攝

通常跟周圍的車是多達十個的回合。這樣談判過程比下圍棋要更複雜,下圍棋跟一個對手談判,這在五道口可能會跟20多個車談判。我們公司的項目,在美國有曼哈頓計劃,中國有“五道口計劃”,什麼時候自動駕駛在五道口能夠行駛,五道口路口非常複雜,有行人,有車,還有火車。所以什麼時候自動駕駛的車能夠穿越五道口的話,我覺得這個事就搞成了。因為我們公司裏有很多清華的學生,所以我們公司內部自動駕駛的討論群叫“五道口計劃”。意思是說到最後四級是主要的計算量。

功耗降低非常重要,因為一方麵不希望未來的新能源汽車,本來可以跑到長城再跑回來的,結果到跑到半路回不來,功耗都消耗在計算上了。其次更重要的是跟可靠性、安全性有關。因為功耗通常反映高溫下的穩定性。如果車在停車場裏,在夏天清華裏的某個停車場,直接開門進去這車已經有七八十度了,所以一定要把功耗給降下來。相比來講,跟Mobileye的eyeQ3相比我們盤古處理器更加強大,功耗差不多,都是2瓦,但是我們更加適合中國路況,可以更加應付複雜路況。比如說像國外做自動駕駛都是這樣的路況,中國都是這樣的。所以我們麵對這種複雜性,誰能把五道口的問題解決,誰就能做自動駕駛的無冕之王。

下一代的處理器,是我們明年年底會推出來更先進的處理器。這個處理器麵向自動駕駛,核心是通過傳統的檢測方法框架走基於象素級別的識別框架,這種框架識別單元不是一個一個的檢測框,而是一個一個的象素,可想而知,這個計算的複雜度其實會更高。因為等於每個方麵都要計算,對處理器挑戰非常大的,但是它的意義非常大。很精確的去識別,比如哪個地方是馬路牙子,哪個地方是可行駛的區域,不光是人,包括行人背後有嚴重遮擋也能知道,同時小的停車杆,路邊這些杆都知道,因為車不想撞上去,一般你的雷達不會有那麼細的力度檢測那個東西。這比一般的檢測框都要更加精準。

在中國做自動駕駛的挑戰

看北京的例子,車露出一點角的話都要檢測出來,北京的換道多,這種在歐洲、美國不容易出現,但是在中國非常容易出現。所以露出一點點就檢測出來,這個非常重要。這是傳統檢測框不具備的能力,所以我們必須把這個事情通過軟件跟硬件的結合做好。這在中國出現一個苗頭就要檢測到。

另外是行人,歐洲在高速上是不需要做行人檢測的,在中國要不要做?中國要做的。這裏很重要是對他的意圖的理解,像國外那樣知道人在哪個地方是不夠的,你要知道人臉朝向什麼地方,整個姿態的方向是什麼樣的,這會幫助理解他的意圖。比如他的腦袋朝前大概知道不會朝後走,這些東西加在一起對它的理解。

在中國還有一個很有意思的場景是自動趴車的問題,基於象素級的處理器,環式的攝像頭,經過我們的處理器把它給解析出,什麼地方是行車道,什麼地方是停車位。綠色的地方是停車位被占了,紅色的是各個欄杆,上麵是天花板。對語意的解析能夠不斷的建圖、建模可以知道哪個地方可以停車。這裏你就看到要用同一塊處理器同時實施象素級的解析,這裏對實時性、計算量都是有要求的。

自動駕駛的發展肯定需要雲端的數據,也需要本地軟硬件的部署,實施性的計算,這本身就是合作共生的。但是我覺得自動駕駛這件事情確實是中國人的事,因為我們的市場這麼大,我們這個場景裏產生的數據這麼多。中國一個300萬人口的城市都不好意思叫自己是中型城市,大家知道巴黎是多少人口嗎?巴黎是200萬人口,三藩市是80萬人口。隻有中國才有這麼挑戰性的事情,給我們的挑戰跟機遇都是非常大的,這個事大概率也跑不掉,肯定是中國企業的事情。


原文發布時間為:2017-11-11

本文作者:文摘菌

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“大數據文摘”微信公眾號

最後更新:2017-11-13 17:04:15

  上一篇:go  阿裏雲中間件產品科技普惠企業,滿足多場景需求
  下一篇:go  阿裏流計算平台開發實例之電商雙11實時計算