749
機器人
百度長江學堂小二班深夜食堂 陸凡:人工智能“喧嘩”背後
創創導讀
自Alphago圍棋大戰開始,人工智能再次進入大眾視野,掀起一波熱潮;而人工智能運用也漸漸與諸多領域進行深度結合,打破產業中的傳統運作模式。怎樣看待人工智能界“眾聲喧嘩”?AI如何完成感知?又如何抓住技術結構性變化帶來的無限機會?
在8月5日的百度長江學堂二期班第二模塊上,觸景無限(Senscape)CEO、長江EMBA校友陸凡博士從人工智能的“喧嘩”談起,帶領我們走進AI領域,深度解析視覺感知技術以及人工智能感知產品在產業中的應用。
長江EMBA校友、觸景無限CEO 陸凡博士
喧嘩背後的思考
去年之前,人工智能領域有兩次大的喧嘩:一次是IBM的一款超級電腦Deep Blue打敗了當時的國際象棋大師卡斯帕羅夫,另一次是IBM的沃森超級電腦在美國收視率最高的一個有獎問答活動Jeopardy中,作為最終的候選人打敗了一同競選的神童們。
但是,這兩次喧嘩並沒有給人工智能產業帶來什麼影響。那麼今年AlphaGO帶起的人工智能界的喧嘩是否如前兩次一樣,過一陣就回歸平靜呢?我們應從兩方麵分析:人去哪兒了和錢去哪兒了。
人去哪兒了?Lann leoun、Hinton、bengio、andrew Ng號稱學習深度的四大天王,已經全部被企業界包養。他們的運作模式是研究者入駐,把研究者和他整個實驗室拉進公司,研究者的課題、方向全部與企業結合,從以前的學術研究變成了企業的一部分。正如李開複形容到,現在人工智能公司就是一個巨大的黑洞。無論你培養多少學生、培養多少教授、培養多少人才,全被這個黑洞所吸引了,沒有例外。
錢去哪兒了?很多公司,包括現在的獨角獸企業在內,有著極少的利潤,但規模卻大到令人吃驚。
從以上兩方麵看,這次人工智能界AlphaGo帶來的改變,是不可避免的、結構性的改變。值得注意的是,任何一次技術發生結構性的變化的時候,潛藏的機會是巨大的。結構性的機會,人的一生當中不會太多,像電、工業革命、互聯網革命一樣,這個機會就那麼幾次。我們希望在這種大的結構性的變革的時候,任何傳統行業或者任何已經覺得發展不錯的行業都有機會做得更好。
分享現場
AI如何感知
AI實際是希望機器能模擬自然界的智慧,最主要有三塊技術。
第一,認知。我們要有一個聰明的大腦,能夠認知。
第二,感知。我們要理解自然,首先當然要感覺這個自然,觸摸到一個東西覺得燙把手拿回來,這就是一種感知。
第三,反饋。認知與感知的結合,就有反饋。
現在唯一製約整個人工智能發展的就是感知。對於計算,機器很容易做到;但在感知方麵,機器隻能非常簡單地用傳感器去獲取客觀的事實,處於低端階段。
人類獲得的感知是從哪兒來的呢?如果讓大家保留一個感覺器官,估計90%的人說要眼睛。通過眼睛看清世界,這是人類的一個共識。其它的感官基本都是功能性的,負責一塊功能。但是視覺感官有更多作用,功能性以外還可以娛樂,也支撐著對人的精神,因此感官中視覺是及其重要的。
我的一家公司名為senscape(觸景無限)。早期的1.0階段我們嚐試做AR,要將AR做好首先要把基礎技術做好,這就是要做好感知。感知做好了,才有顯示與展現。
在我看來,AR是自然界是實實在在的一個空間,我們把自然界做成一個虛擬的空間,虛擬的三維的數字模型,然後把三維模型拉到和現實的景物一樣大,虛擬和現實就套在一起了,我們就可以和現實進行互動。
這跟大多數人做的不一樣,很多人做AR都是做圖片的增強,比如幼兒AR的讀物就是這個原理:對著圖片看一下小孩玩兒小熊變成3D了,而且3D能跟著對象變化進行改變。但在增強現實中,圖片隻是很小的一部分,事實上這對於現實來說並沒有什麼增強。我們要做的,就是增強整個現實。
那這樣如何完成感知呢?步驟是先把周圍整個掃描下來了,建立3D模型,再把現實套進去。Senscape團隊在感知方麵做了工作,擴大了感知的格局,使它不僅僅停留在AR方麵。其實,AR本身也是AI的一部分,是它展現形式的一部分。
分享現場
視覺感知模仿
人類通過視覺獲得感知,機器感知的開發也在於對人類視覺的模仿。
我們可以用嬰兒來想象人看東西作為例子。嬰兒看事物的時候,眼睛隻是提供了光影的攝取,而視神經幫助它理解這件東西。這是人類從眼球到視神經組合起來形成一個視覺係統,這個係統不需要借助外腦。所以在人工智能感知方麵,Senscape團隊目前的工作就是盡量模仿人的視覺,這與市麵上的公司差別還是挺大的。
差別在哪兒呢?其他公司都是在外腦上做識別,需要一個GPU集群王城大量超級計算的工作。Senscape是嵌入式,屬於邊緣計算,即在設備上、在機器人的眼睛上計算,設備前端完成識別、深度學習等工作。由此,我們可以給整個機器人和設備提供僅限於視覺的單一解決方案。
我們希望通過這項工作推動人工智能產業化的整體發展。從前端開始直接進行運算,同時再把視覺獲取的信息和所有傳感器獲取的信息進行一個合流,將視覺、camera、GPS、高度、超聲、陀螺儀等各類獲取的信息合在一起。將多傳感器融合在一起,才是視覺感知的最佳方式,也能使得視覺感知發揮最恰當的作用。
深度學習顛覆了機器的學習模式。以前是機器按照人的理解進行智能的判斷,我們將人所掌握的知識教給機器,讓它按照我們的方式做,因此機器永遠無法超越人類。但是深度學習是把數據丟給機器,讓機器自己去找這個規律;從人的舉一反三,直接進入到舉百反一。因此機器在大量數據中找出的特征點,往往是人沒有發現的。
機器在運算速度、全麵性和邏輯上遠高於人類水平。因此人類需要做的,就是將深度學習的方法應用到機器中,這樣就可以把感知的能力賦予到各個行業,如機器人、AR、輔助駕駛等。
分享現場
研製視覺卡
在前端的嵌入式上完成感知,實際上也存在著巨大的挑戰。因為這項技術要求模型不能太大,如何將複雜運算嵌入其中就是一個難關。目前看來,全世界範圍內隻有這幾個東西能完成這個挑戰。
一個是英偉達的Tesla係列。它和GPU的原理差不多,隻不過是在嵌入式的環境下完成;另一個是創立於愛爾蘭的Movidius,去年11月份被Intel收購,發布了芯片。
這兩個都是專用芯片,都是為了視覺,特點就是並行計算。以前的芯片是串型的,但是在做大量積極視覺的運算的時候,串型基本沒有機會。這就是為什麼這些公司現在能夠大行其道。
Senscape用英偉達的芯片做了1係列的產品,用Movidius做了2係列的產品,我們把它叫做視覺卡。
視覺卡有三部分:視覺本身識別、傳感器融合、深度學習。都在一個小小的卡片上。這個已經可以在前端,機器人建立三維的模型,進行識別這些東西,然後進行實時的處理。
這個視覺卡中的芯片帶有一個15厘米的雙目,使我們為了完成雙目的立體視覺效果做的,它通過三角運算能夠獲取到深度信息。呈現到圖像中就是,在不同深度,事物會發生不同顏色的轉變。這些在不同光照下都能完成,即使在沒有光照的晚間,也同樣適用。被識別的事物都是被動光,沒有主動產生光源,因此我們在視覺卡內加入激光,這樣就能通過激光反射、回收的飛行時間的計算,判別眼前事物究竟是什麼。
而通過深度學習的方法,機器也能識別更多內容。目前我們可以使得這個視覺卡識別人體,單獨把手伸過去,它能夠辨別出這是人的一部分,但這項技術還不成熟,有時也存在識別不出的情況。
目前視覺卡已經能識別12種東西,通過攝像頭將所攝事物識別出來,用不同顏色對應不同東西。攝像頭掃過現實圖景時,留下各類特征點的點雲,這些特征點是矢量信息,帶有坐標信息,將它們串在一起,就能構建一個三維模型。比如掃完一個小鎮,小鎮的模型就能構建出來,我們將模型拉到小鎮那麼大,就能將它和真實套在一起。
分享現場
算法的應用
一旦擁有傳感、驅動和芯片,就可以完成識別和感知,再加上深度學習的方法,視覺卡就能變成一個可擴展、可學習、可提高的環境。將算法深度、精準定位,以及人臉檢測、物體識別,包括追蹤等融合在一起,就做出了一款產品。
科技界有一個共識的,就是數據秒殺算法。這種算法需要有反饋的數據,機器識別是需要告訴它是對是錯。所以有時我們認為很牛的算法,實際上在很多學校裏麵就是學生一個實習的項目。學生做完之後畢業了,可能就再也沒有人去關注它。
但是這個算法放在我們這項產品中是有巨大的價值的,它可能會成為一個應用。我們現在在做的工作,就是提供整個軟硬件搭建的平台,讓第三方的算法公司跑這些算法,這樣我們在各個行業裏麵就可以往下推進。
從第三方找到算法,我們就能做一張感知卡,這需要大量的行業數據。有了行業數據,機器就可以進行深度學習,就可以獲取感知能力,我們就可以重新發明、發現產品,重新去設計產品,這樣就形成了一個完整的人工智能的生態係統。
本文根據陸凡在百度長江學堂二期班北京模塊現場分享內容整理,有刪節。
編輯 \ 周宇彤 孫曉靜
最後更新:2017-08-23 10:53:14