閱讀789 返回首頁    go 阿裏雲 go 技術社區[雲棲]


演講實錄丨吳甘沙 2020-2025:無人駕駛的應許

2020-2025:無人駕駛的應許

吳甘沙

馭勢科技創始人&CEO


吳甘沙:今年2月份出來創業,我們做的事情就是智能駕駛,我今天的題目跟的內容不完全一致,說實話我的內容有點虛,看到李院士那麼認真的在準備新的內容,所以昨天晚上我又加入了一些新的內容,但這些新內容我敢保證以前很少給大家看過。


    今天我這個內容就分成兩部分:一部分是2020-2025智能駕駛尤其是無人駕駛能夠給我們帶來什麼?第二部分是想分享一下,我們公司為了達到這樣一種願景,在做一些什麼樣的技術準備。


    首先有一個新的判斷,大家心裏麵應該有數,就是2016年的人工智能它是一個什麼樣級別的大趨勢,我們把它跟1996年的互聯網以及1976年的PC相提並論。大家知道1976年PC引領了數字化的二十年,而1996年互聯網帶來了網絡化的二十年,今天仍在享受網絡化的紅利。2016年即將揭開,是波瀾壯闊智能化的二十年,這個大的趨勢我希望大家都能夠放在自己的心裏麵,這將影響你未來二十年你會做什麼?


    在未來五到十年這麼一個時間尺度上,我們認為在所有的智能產業當中,智能駕駛是非常好的,首先它市場非常大,涉及到三個萬億美金的市場,第一個是市場市場;第二個是出行市場,現在大家都知道優步、滴滴;第三個是自動駕駛直接或間接帶來的社會效益,這是在它的報告中給出的數字,一年能夠給美國帶來1.3萬億美金的社會效益,相當於美國GDP的8%。我們腦海裏想一想,還有沒有第二個人工智能的技術達到如此之高的社會效益,我是沒有想到。這些社會效益怎麼來體現呢?我還是拿北京作為一個沙盤推演一下。


    北京車很多,600萬輛機動車,絕大多數是私家車,車多導致了堵車,堵車又導致了排放、霧霾,又導致了交通事故,車多還導致了停車困難,一輛車90%以上的時間是停著的,而且需要兩個停車位,20-30%的土地在北京是用來停車的,這個數字大家聽起來覺得觸目驚心,房價貴在軍功章裏也有停車的一半。我們就在想怎麼能夠通過智能駕駛,尤其是無人駕駛來去打破這樣的鏈條,我們去問大家為什麼要買車?根源是在車特別多,而且人駕駛,我們得到兩個原因,第一個原因是說要按需出行,但是我打不到車,全北京隻有7萬輛出租車;第二個原因是工薪階層整天打車太貴了,所以我們現在在考慮一個願景,就是在十年以後,北京可能隻生下了300萬輛車,減少了一半,但是其中有200萬輛可能是無人駕駛的出租車,大家初一聽到這麼一個願景,可能覺得有點太不靠譜了,怎麼有那麼多無人駕駛的出租車呢?我請大家回想一下十年以前,2006年蘋果還沒有出現,移動互聯網根本沒有,今天享受的O2O各種各樣的服務完全都沒有,過去的十年技術改變了這麼一個世界,未來這十年,我們相信技術的發展是呈加速的態勢。當然,這些出租車跟剛才劉院士說的完全自主的出租汽車還不完全一樣,我們把它定位成為在城市區域行駛的中低速的無人駕駛汽車,所謂中低速像穀歌是調在40公裏的時速以下,這200萬輛出租車就能夠解決剛才的問題,一個就是我們想打車,車3分鍾之內就能來,我們有一個大調度的算法,把這些車分布在城市的各個地方,保證我要車車就能來,保證出租車費能夠降到今天的1/3,為什麼?今天出租車的人本機構一大塊是人力成本、一塊是分子錢,一塊是油錢。那麼無人駕駛把人力成本去掉,份子錢滴滴優步已經擠出去了,油錢是由於我們很多車在空駛,而且新能源每公裏的能源成本比今天的化石原料低很多,所以打車會非常便宜,大家改變了消費習慣,就不會去買車,我享受這種按需出行的服務。


    那所有很多一環一環的服務就會被打破了,首先一排車可以整整齊齊的在路上開,車的能源效率也會極大的提升,所以邏輯鏈條的第一環,堵車和排放先去解決了,還有我們的通行效率也會得到極大的提升。大家知道,今天北京的平均時速20公裏/小時,就是因為十字路口、交通燈,而未來有了車跟車、車跟路的通訊以後,大家可以感覺通過一個全局的調度算盤,我這車在十字路口根本不用停,我按照某種特定的次序去通行,能夠保證不去撞上別人,所以我們的平均時速至少能夠提升2-3倍。還有大量的車是以運營為目的的,所以對停車位要求大量的減少,即使需要停車對每一個停車位的要求也減少了,像這樣停進去,所以我們我們大量的空間就能夠釋放出來,大家想象一下,假設每一條道路變得更窄,能夠釋放出來的空間是巨量的,還有今天我們中國每一天,幾十億小時的時間浪費在了路上,因為我們堵在路上,沒辦法做任何事情,未來車會改變它的形態,可能會變成智能空間的形態,它是除了家和辦公之外的第三種形態。大家想象一下,在這空間裏放一個咖啡機,就變成了移動的星巴克;在裏麵放一塊大屏幕,它就變成了移動的影院;在裏麵放一套辦公設備,大就變成了移動的寫字樓,它將會極大的改變我們現在的生活工作的狀態,我們家可以離單位變得更遠,因為我在路上可以工作,我們今天的很多商業地產,寫字樓、商業中心、綜合體都可以拆散了塞到每一輛車裏,事實上把每一條路都變成了移動的商業遺產,這個對於我們未來商業模式的提升,帶來的空間是非常大的,因為可能打一個車10塊錢,非常便宜,但你在裏麵喝一杯咖啡就30幾塊錢,看一場電影50幾塊錢,所以這也是我們為智能駕駛非常激動的原因,我們認為在未來10-20年之內,所有人或者物的交通相關的產業都會被重新定義,無論你是出租車業、停車業、寫字樓、服務業、物流、金融業、保險業。


    現在處在什麼樣的時間點?剛才說的是未來的時間場景,我就拿一個例子來說,這是兩條頭條新聞,它說是在無人駕駛當中要用到一個設備叫激光雷達,待會湯總會更加詳細的介紹。大家可以看到,激光雷達從2007年城市挑戰賽當中第一次用到無人駕駛當中,到現在差不多十年的時間,它的價錢沒有變化,7500美金一個,但是現在我們已經看到了曙光。在未來的三五年之內會降到500美金以下,甚至是300美金以下,甚至達到100美金,為什麼?大家可以去看上麵這條,說現在是底特律來去拯救矽穀了,原來靠優步、穀歌那樣玩無人駕駛價格是下不來的,現在底特律的定單巨量的湧來,所以現在價格變得便宜。


    我們再從用戶的角度,這是世界經濟論壇BCG對全世界很多城市政策製定者進行調研,88%城市的製定者希望無人駕駛汽車在未來十年當中,在城市裏得到商業化,所以這從用戶的角度,它又是一個巨大的(挑戰)。大家可以看智能駕駛裏麵包括了很多種不同的形態,剛才李院士已經介紹了一些,比如說2007年第一次出現產品的這樣一種駕駛輔助係統,更接近於李院士講的;2015年特斯拉是大規模的商業化輔助駕駛,2020年大家可以看到有兩個重要的新的智能駕駛形態出來,一種叫做高度自動駕駛,從某種程度上就是李院士說的機器在多數情況下駕駛,但是偶爾需要人幹預,它跟輔助駕駛的區別在什麼地方?輔助駕駛的適用場景是非常簡單的,在封閉的結構化上。輔助駕駛現在還是要求人隨時把手放在方向盤上,把注意力放在路上,而高度自動駕駛允許駕駛員有5-8秒鍾的時間反應,重新會回到決策環節;另外一種像穀歌、優步在說限定場景的無人駕駛,也就是說把駕駛員整個拿掉,但是它是有限定的一些條件,比如說在城市區域最高時速不能高於40公裏/小時,真正的全天候、全區域的無人駕駛可能需要30-50年的時間,這個我們隻能說聽天由命,我們要去看怎麼能夠更好的去推動技術的更快發展。


    現在我們往往把前麵這兩種叫做自動駕駛,後麵這兩種叫做無人駕駛,就我們公司馭勢而言,我們做了很多輔助方麵的工作,如何去改進特斯拉曾經出現過的事故,既然我們叫2020-2025,這些東西我們就略過不說,我們說要達到自動駕駛和無人駕駛需要做什麼樣的技術準備。


    第一,要有一個更好的指引和定位係統,不把它叫做地圖,把它指引圖,就是在一些關鍵的地方,它要能夠對這個車的行駛做一個指引,比如說我在高速上順著車道開就行了,不需要指引,但是我上閘道的時候就需要指引,這裏麵強調三個要點,我們需要融合各種各樣的傳感器,但是不依賴於任何一個傳感器,因為任何一個傳感器都可能會失效,這是我們的第一個要求。二是室內室外、地上地下要無縫銜接。三是希望能夠眾包生成,不像機器人那樣去建圖和定位。這是在北京房山的研究院,綠色的線是用GPS(RTK)係統,大家可以看到很多地方軌跡是非常精確的,這一點看GPS的信號就發生了很多的跳躍,而且這種跳躍是不規則的,一天的這個時間在這邊,換一個時間就到那邊了,實際上跟衛星的數目和地麵基站的通訊狀況是有關係的,如果純靠GPS(RTK)進行自動駕駛是會有問題,所以要加入慣性導航係統,但是還有個問題,今天的GPS(RTK)可以做到比較便宜了,三千塊,年底一千塊有可能出來,但是慣性導航係統,尤其是高質量的慣性導航係統非常昂貴,我們通過視覺的方法去實現。大家可以看,這個是攝象頭,這是我們算法的監控窗口,這條線就是我們規劃路徑的一條線,當然當中也有車道線,包括一些障礙物,這是我們的視覺雷達,用雙目去判斷障礙物。這條線大家可以看到,紅色和藍色線,事實上是代表著用視覺的裏程器跟GPS的融合,把整個的路徑、軌跡會變得非常的穩定,這是我們第一個要做的。

    第二,我們在想GPS(RTK)在地下沒有了,室內可能通過WIFI,還是通過UWB,這些東西對於基礎設施的依賴還是太大。所以我們覺得基於視覺標誌物的指引和定位可能是最方便的,我們就開始做這方麵的探討。視覺標誌物有很多種,可以在三維空間裏的某些指示牌,人導航經常靠這種東西,也可能是道路地麵上的一些特殊的符號,特殊的語意,我們人也是靠這樣的語意進行導航,所以我們做了三維空間標誌物的識別和匹配,大家可以看下麵是一個標誌物的匹配,我們實時在開的時候通過計算機係統的算法,在畫麵當中找到標誌物,然後跟地圖裏麵進行匹配,匹配到了我就知道我到底是在什麼樣的地方,匹配到了我就知道下一步應該往那裏走,這是我們做的第二個事情,但這個事情也是有缺點的,在3D空間裏麵的指示牌非常稀疏,經常可能隔幾公裏才有,而且有時候會識別不出來,這就會導致在相當長的一段時間裏,如果GPS不好用,那你就失去了位置。怎麼辦了?我們想到了第三個係統,地麵是連續的,地麵的符號也是可以幫助我們做匹配、做定位的,這是我們攝象頭看到的東西做了幾何空間的轉換,變成從上到下,你就可以看到很多非常有意思的,非常特別的視覺符號,我就可以用視覺的算法把地麵貼起來,就像我們拍照用全景模式去拍,下一步我就在這個裏麵把這些視覺的符號抽取出來,變成適量的指引圖,實時在開的時候,根據我開的東西跟這些指引圖做一個匹配,我就可以知道我在什麼地方,而這樣的一個匹配,事實上搜索空間是相當之小的,為什麼?我還是有GPS,GPS把我定位在幾十米的空間裏,在幾十米的空間裏就可以匹配出來,而像這樣地麵上有很多陰影的情況下,我也能夠做很好的匹配。這是我們在實際車上麵運行的情況,這也是我們的攝象頭,我們的設想實際就是黑白的,因為它是為算法看的,這是我們實時攝象頭看到的視野,背景跟它進行匹配,所以這條綠色的線就是我們具體匹配出來的運行軌跡,大家可以看到車道裏麵達到了大概10-20厘米的定位技術,這是我們做的這些事情,在指引圖在定位上做的一些探討。


    其次是認知的提升。我們也做了一些探索,可能沒有李院士說的那麼全麵,但是大家可以看到我們做了很多方麵的嚐試。


    認知階段1:從識別不能撞的東西到明白整個世界,全麵世界模型。你不能撞的東西數據庫畢竟是有限的,不能窮盡,假設我們開到印度去,一頭牛出現在路上,它從來沒有在你的數據庫裏,你能不能撞?不能撞,所以需要全麵世界模型,這個算法叫象素標簽,或者叫做語意分割。大家可以看到,這是我們實時攝象頭看到的東西,這是我們做語意分割,紫色的是道路,棕色的是汽車,橙色的是灌木叢等等,這12類能夠保證我們實際在運行的時候,能夠去做適當的這樣一些反應。當然,光路麵的檢測還不夠,這是把整個的路麵進一步做了分割,真正這個方向能夠行駛的是這一半,或者你看到了公交車道,在這個時間點會把我們可行駛的路麵進一步收縮成這麼一大塊,或者我要左轉,我把我可行駛的區域縮成最左麵的,再下一步就是對非結構化道路的理解,大家可以看到,這些道路要麼車道線非常不清晰,要麼被大雪覆蓋,要麼馬路邊上馬路牙也看不見,這時候就需要把行駛區域找出來,或者把運行的規劃軌跡找出來,這是我們要說的認知階段的第一步。


    認知階段2:從不撞到舒適的駕乘感受。每個人對於安全距離,對於加速、減速、換道的習慣是不一樣的,所以我們需要做駕駛員學習,這是我們合夥人做的實驗,上車之前車頂上放了三樣東西,繞著北京的三環開了一圈,48公裏全部是沒有人幹預的,在這裏麵非常實際的交通狀況,而且是最高時速達到80公裏/小時,做了像這樣一種自動的換道等等,但是這個實驗最重要的目的是要展現,展示當中這三樣東西一直在車頂上,這是完全沒有(汽片)的,這是中央電視台拍的。


    認知階段3:從確定的經驗到自學習。所謂的自學習剛才李院士也說了,能不能在駕駛員指導之下,這套人工係統能夠自己獲得學習的能力,現在關於自學習最火的技術就是基於深度學習的端到端的學習,你的視頻進去,控製信號直接出來,這套技術我們也做了研究,發現它有優勢,優勢就是自學習,但是缺點在於還不夠安全可靠。因為我們傳統的這套係統,感知、規劃、控製,每一塊、每一個階段都是有多重冗餘的,但是一旦變成端到端了很難去控製,我要求有很多數量高質量的樣本來給它做訓練,而這麼一個數量是組合爆炸,所以我們認為完全做端到端,目前來說是不合適的,但是你可以借用裏麵自學習的那一部分,所以我們希望做的,深度學習從純感知到規劃,到了學習的這部分,但是我們學習的目的是把它沉澱下來成為知識,然後這些知識經驗和專家係統會進一步的指導規劃和控製,它的整個過程是結合了傳統的這些感知規劃控製,每步步步為營的做法,同時也加入了端到端深度學習。


    認知階段4:從詠春木人樁到少林18銅人。在一個真實的駕駛路礦上,在這麼一個態勢下,道路上麵的每一個智能體都是活的,而且是人,這時候就像過少林銅人一樣,要猜測他人的動機,要預判行為,合理的判定路程。


    大家可以看到這個車開的是一頓一頓的,它知道周圍有很多人,所以它必須得製動的行駛。我們用了這個過程去預測每一個人他的動機、他的運動軌跡,會不會跟我車的運動軌跡相交,如果不相交我沒必要做主動的製動,這樣整個車開的非常平酸,做這個算法的研究員也在我們公司裏,把這個算法也運用到我們的車上。


    這個案例(PPT)跟李院士的仿真有點相似,但是說的是不同的事情,它說的是環島,在這個環島裏紅色的車是自動駕駛或者無人駕駛的車,怎麼能夠很好的切進去,這時候就需要我去判斷每一輛車的動機,判斷它的行為,它是激進的還是很慢的車,我在合適的時間點去切進去,它用到了(遞歸視頻)網絡或者強化學習的方式,能夠做這樣的一種認知。


    第三要做的就是要運用激光雷達,傳統的輔助駕駛大家知道特斯拉,一個前視的攝象頭,加上一圈的超聲波,我們認為到2020-2025要實現無人駕駛,要實現激光雷達,它對三維的環境能夠做非常全新的介入,這我就不多說了。


    現在這麼幾家領先的激光雷達廠商,包括,它也出了好幾帶的激光雷達,未來三五年如果能夠達到100萬台的訂單,就一定能做到500美金以下,另外他們出了豪言,他們要做120線的激光雷達,意味著它的垂直方向和雷達率得到很大的提升,還有一個是ibeo和Valeo做激光雷達的,還有Quanergy希望2020年做到200美金、1000美金,除了這幾家也出來一些新的,日本的先鋒也是說要在2020年能夠推出可量產的激光雷達,這裏麵是蠻有意思的,這家Quanergy原來是做音箱的,現在開始做激光雷達。我們現在跟中科院聯合做了一個博士後項目,博士後項目方向就是做激光雷達和視覺的融合,所以也歡迎大家如果有認識這一方麵的博士生,也可以推薦到我們這麼一個博士後的項目當中來。


    第四,車聯網。我給大家舉個例子,今年年初在清明節的時候,滬寧高速上出現了幾十輛車連環相撞的事故,如果說把自動駕駛或者無人駕駛放進去,還是沒辦法避免,因為下雨可見性非常差,這時候像超視距的傳感器就有優勢了,第一輛一踩刹車,後麵的車都自動踩刹車,這樣就可以避免事故,還可以更好的做編隊出行,尤其針對大貨車,他們對道路的利用率能夠提升,安全性能夠提升,油耗能夠提升,對於大貨車油耗的提升非常重要。在高速上一輛車非常製動,這樣的變化會向後傳播幾公裏,你在車速上突然感覺車速變慢了,可能是因為幾公裏前有人刹車了,以後這種速度的變化向兩邊傳播很快就消失了,把每一輛車的速度調成前後車的平均就可以了,但是它能夠去改變我們高速公路的通行,還有如果十字路有了V2X以後,交通燈也可以拿掉。


    第五,測試驗證的方法群。大家都糾結於自動駕駛安全還是人駕駛安全,前段時間特斯拉出了一起車禍,他說我行駛了1.3億英裏才死了一個人,美國是9000萬英裏就要死一個人,所以我還是比人安全。聽起來很有道理,但是大家如果懂統計學就知道,它不是統計上顯著的這樣一種計算,因為第二天再死一個人就變成6500英裏死一個人,那麼究竟多少路程能夠證明自動駕駛比人開的安全呢?這是蘭德公司做的研究,他發現要開近百億英裏才能夠證明自動駕駛比人開的安全,但是沒有一家車廠在車上路之前開100億英裏。現在穀歌的無人駕駛汽車一天會跑幾百萬英裏,所以我們也做了模擬器,模擬器什麼都可以模擬,包括攝象頭、雷達,可以設計在現實生活當中不存在的交通狀況,我們用到了帶有一定隨機性,又是基於機器學習的算法,大家知道有什麼問題?就是它是一種歸納法,事實上是你不能窮盡樣本空間,因為你不能防止(黑客)的出現,針對這樣算法,運用到不能出一點事情的自動駕駛裏挑戰非常大,這是穀歌和MIU發布的研究,左邊的照片和右邊的照片,人眼看起來沒有任何一點差別,但事實上他們有一些象素級別的差距,大家可以看到中間就是象素級別的差別,因為中間這些象素級別的差距,我的深度學習算法,左邊能認的出來,右邊就認不出來,大家可以看到算法本身還是有很大的問題,所以我們說我們要重新去研究、測試和驗證方法學。


    現在的商用飛機和軍用飛機,它的成本當中一半是軟件的測試和驗證,我們的汽車有多複雜呢?一輛奔馳的S級轎車上麵的代碼行數是播音787行數的十幾倍,意味著你要有更好的測試和驗證的方法學。


    第六,小型化、高效能、高可靠的硬件結構。


    我給大家看一下汽車裏麵的硬件,尤其是計算這塊怎麼演進的,一開始在2005年,斯坦福的這輛車後備廂是這樣的,到2010年的時候普銳斯就變成這麼小,到雷克薩斯就變得這麼小,現在做到這麼大,跟筆記本差不多,但是它的計算能力相當於一兩百台的筆記本。


    還有我們不能隻考慮計算,在汽車裏麵有一個執行的機構,大腦發出的決策命名,怎麼讓方向盤、油門、刹車去執行這些決策,執行機構也不能出錯,必須得考慮,這是沃爾沃的一個車,每一樣功能都樣雙目,大家再看福特,每一樣功能都有,其實除了油門沒有,其他的像刹車、方向盤都有問題。


    這是我們的最後一頁,用中國古人的一句話“時來天地皆同力,運去英雄不自由”。意味著我們要看清楚人工智能大勢,看清楚無人駕駛的大勢,謝謝大家!

本文來源於"中國人工智能學會",原文發表時間" 2016-09-24"

最後更新:2017-05-24 17:01:51

  上一篇:go  演講實錄丨沈海寅 “奇點”降臨,從汽車到輪式機器人的變革
  下一篇:go  演講實錄丨謝浩 智能時代的VR視角