899
技術社區[雲棲]
演講實錄丨朱瓏 開啟人工智能之眼
開啟人工智能之眼
朱瓏
依圖科技CEO、計算機視覺專家
朱瓏:非常感謝張老師和白老師邀請,讓我們這些青年人有機會在這裏聚一聚。今天講一下AI一些自己的理解,可能跟大部分人身份稍微有一些區別,我大概從事這方麵學術上研究將近十多年時間,前麵幾年開始做創業,可以從兩個行業緯度談一談之間相關性。
不知道我們在國內怎麼談創業?在美國有一個創業或者矽穀有一個創業基本定義,中國創業在美國是有兩個詞,極不確定性情況下追求高速增長。這兩個詞推出什麼不是創業?比如說我們在國貿這裏開一家咖啡廳,這不是創業,這是一門生意,但是很難做到高速增長。什麼是創業?我要開1000家咖啡廳,這個叫創業。還有對不確定性理解,如果我們在大公司開一個部門做一個方向性探索,或者說拓寬一個市場,這個比較不像創業,因為沒有極強的不確定性,無論品牌、人員等等這些東西。一個極不確定性,一個超高速增長,這兩個本質什麼?就是風險。
風險這個詞恰恰把最牛的創業,和最牛的學術研究關聯起來。創業是追求非常短時間的高速增長,所以它是短時間內的創業,大概7到9年的時間,這是有一個結論或者結果。學術圈可能追求2到30年的結論,更追求回報。這種周期或者不太一樣,很恰巧通過風險來把學術研究跟創業關係做了一下關聯。
人工智能非常火,我大概是12年從美國回來創業,當時應該什麼情況?當時創業人不是特別趕著人工智能,無論在國內外AI還沒有成熟的時候,你說你做AI人家說你吹牛,深度學習沒有被產業界形成共識的時候,是一個比較低穀的時候。12年我們在中國的時候,我的天使投資人是徐老師,他自己做投資也算是一個新的開始創業曆程,所以12年的中國是一個非常有意思的時間點,在那個之間技術人員不是那麼的值錢,更多是資源密集型,比如資金密集型或者材料密集型投資為主。到12年開始我們創業者,智慧密集型或者技術密集型創業開始形成潮流也好,普遍的現象。
直到15、16年不同領域,包括語音識別,視覺識別一些成熟,人工智能開始有了一個普及性認識,不僅在投資圈、產業、平民老百姓,智能給我們生活之間離的多近。特別是16年,我們今天這樣有機會在這個地方交流,人工智能本身給我們帶來了。
我和人工智能什麼關係,第一段曆史,一個是跟物理相關,跟腦科學相關,跟神經網絡相關。我是統計學的博士,我的導師以前學物理出身,霍金理論武力的博士。最後一段曆史,現在世界上所有用的人工智能的所謂算法,就是深度學習,深度學習有一個卷積(音譯)神經網就是這個教授發明的。正好是學術界跟AI相關不同領域的人,可以看到AI從業者五花八門,有做物理的,有做計算機,大家興趣點專業背景不一樣,都回歸到對智能理解和研究上。
因為在座很多不是從業人員,這裏有4組圖,一共4對,大家花30秒時間看看哪幾組是同一個人。你作為人自己到底深怎麼識別人臉?有可能都不是,有可能都是。你們思考越投入越能感受到自己多麼不了解你作為人類怎麼認識人的。左上角有認為是同一個人嗎?五分之一。右上角有嗎?二十分之一。這個答案隻有左下角是同一個人,這個論證一下說這個人類,因為你自己是人類,可以感受你自己怎麼識別,你到底看眼睛還是嘴巴?我們從100萬庫裏麵讓機器選,讓相識度非常高的人,也就是機器是人類很難辨識的。
下麵一個話題,今天的機器到底多智能?剛才看到人的感受,我們有一個觀點。我有一個客戶是公安的,他做了一件事情,把他女朋友的照片,比如今天這個場合隨便一個活動上拍的照片,到我們數據庫或者到我們係統當中搜索,這個庫大概1000萬人,出來的前10名人,哪一個是他女朋友?他是選不出來的。當然這裏有一個小的問題,數據庫裏麵有身份證的照片,也有隔5到8年的時間,也有可能今天女朋友是化妝的,證件照沒有化妝。之前有人說機器已經超過人類了,人會說不公平,因為記不住那麼多人,人容易比較識別比較熟悉的人。今天這個實驗告訴你,你有可能非常熟悉的人,認識5年10年的人,機器可能比你更能認識這個人長什麼樣。這是技術上一個更強的結論,因為你認識這個人他有多種形態,他的姿態,他的年齡變化,或者他的表情化妝等等。
人對這件事情也是認識的不是那麼的完美,今天機器即使在你非常熟悉的情況下,今天在會場上認識100個人,讓我說記住誰是誰,這是記憶的問題,當然沒有機器做的好。下麵講人臉識別,我們做的業務比較多,產業落地過程當中可能跟學術界也好,這個區別比較大的。公安流程叫什麼流程,一個業務一整套的破案方式。左上角我們再一個視頻監控裏麵,一個城市或者一個區域,這個會場我們比如說布了30個攝象頭,其中一個攝象頭拍到作案場景,或者是說犯罪嫌疑人的某一張照片,這是最左邊的步驟,這個照片留下這個人,我們可以去數據庫,比如說今天會場所有人員的數據庫當中搜是哪一個人,這是第一步。找到在庫中誰誰這個結論。
第二步,去所有會場上拿這個庫中的照片,找這裏麵的軌跡,能夠知道他在什麼位置出現過,或者什麼時間出現過。第三步,進行布控,我們知道他的規律。現實當中我們會在地鐵或者高鐵,或者比較重要的出入口去定點。某一個區域,某一個時間段布控,把這張照作為懷疑對象抓住。最後一步,當你識別報警的時候,推送給業務的民警,民警不願意在那邊看著,等有嫌疑的人有給現場的勘察。
我們講一下中國的今天人臉識別做到什麼程度?總結一句話,大家在美國的片子上看到的反恐片,基本上在中國都能做了,而且這個定位在美國是基本上做不到。這個領域以我對美國的了解,或者全球了解,中國這個方向上業務落地方向上,應該是全球最好的。我們看一下這個是治安的攝象頭,大馬路上,左邊是拍到人臉模煳情況,攝象頭有象素會低,基本上沒有什麼問題。攝象頭不需要每一次拍到正臉,這種在我們的一些攝象頭部署比較好的區域,基本上能夠做到7、8成能夠抓到,非常高的比例。
下麵看一下場景,這是比如說是網吧,左上角是側臉,不完全正臉。這個是QQ的,這個是修手機時候的,這是在車裏的,原來拍車的攝象頭,看到車裏麵的人臉。這個是ATM機的,這個是抓捕左邊是視頻接力是他坐在那輛車,通過出租車鏡頭找到他這個事情,這個視覺比較大。這個是屍體的,屍體當然是要有一定的時間不能變形太大,水腫不能太厲害。一段時間基本上沒有什麼問題。這個是在地鐵、高鐵進行實施布控,用這種視頻非接觸式,不用看這個攝象頭基本都可以。這個是在講跨度非常大,有超過十幾年的,這些都是15年前的,15年前照片不像今天彩色照片那麼好,是有這種年齡上的差異。
這些感覺什麼?我不知道大家聽了什麼感覺?我是做人臉識別從業人員,但是給你一種感覺你在設計、實驗,哪怕測試自己算法的時候,你知道做到99.99,不管性能什麼?我當時並沒有預測到在我們生活場景當中能夠這麼普遍的被推廣,被應用。比如說剛才屍體照片,設計時候並不想做屍體,不管三七二十一都往裏麵試,人工智能有時候比專家,比世界最牛專家很可能沒有辦法知道他真正的潛力和邊界在哪裏。
這個是另外一種案例,剛才對一個人的案例,嫌疑人隻有一個。另外這個是我們在某個城市跟大數據處理相關一件事情,這個城市你可以想象大概1到2千萬人,中國大概有小幾十萬的通緝犯。把這幾十萬的通緝犯照片跟本地1到2千萬的照片做交叉對比,大概幾萬億的對出,裏麵輸出人臉長的一模一樣,但是他們身份證逃犯,身份證換過了。當然臉沒有換,時間會隨著變老,當然不是整容。找出幾對,後來找到8個在當地是真正的通緝犯,當天可以利馬抓捕3、4對。
這個對民警非常大的衝擊,這個片子裏麵從事件驅動神經,今天有案件找人,大數據意義對這個城市理解情況下找人,這個模式完全變了,時效性以前都是幾個月時間才可以找到線索,今天計算機算了幾個小時或者一兩天,當天幾個小時之後就可以抓到人,完全效率和模式上跟過去有巨大的差異,這個對民警有非常大的衝擊力。這個稍微比較容易想到,怎麼服務,我們客戶經常碰到老人走丟,這時候特別心急。但是民警現在配了警務通,上麵拍了一個老人就可以知道。在1000萬人當中,拍一張照片就可以把這個人找出來,現在技術可以到幾億人沒有問題。
我們公司拿了過公安部邊檢測試第一名,公安部刑偵測試第一名,招商銀行測試第一名。招商銀行有1000萬個網點,你現在身份證有相關的認識,這裏麵一看這不是本人,營業員就有其他手段跟你網下交互。這個量級非常高,他們測試有億級,從一億人裏麵把你找出來,大家看到網上新聞,學術界到百萬量級,產業界測試到億級,這裏差距非常大。
我們做到人臉識別非常強的應用的時候,我們人類認識的邊界在哪裏?機器能跳到90米的時候,可以幫助我們看到90米那個空中什麼樣,可以幫助我們知道我們人類到底在幾十米,我們差距什麼。不僅是性能幫助服務於我們這個社會,還幫助我們了解我們自己,了解我們大腦什麼樣。這裏做一個實驗,中國13億人當中,差不多有12個人13個人長的一模一樣,每一億個人有一個人跟你長的一樣。從學術來講人臉這種特征有兩個眼睛,一個鼻子一個嘴巴構成的器官,或者一種信息,到底人與人區分度極限多少?結論是有一億人會有一個跟你長的一模一樣,你坐在旁邊人沒有辦法區分誰是誰?就是超越人類認識的邊界。
有的人非常不服氣,我長的這麼漂亮,不可能十幾個人跟我長一模一樣。但是有人比較激動,我長的比較有特點,我很願意找那十幾個人出來。沒有任何差異,無論眼睛、鼻子、嘴巴關係,以及細節形狀都差不多。後麵來講前麵都是一個攝象頭看到的世界,包括人臉識別等等,我們想機器為什麼從人工智能今天很可怕,或者可能超越我們的想象,機器沒有任何生理上的限製。一個機器可以裝一萬個攝象頭,如果到一萬個攝象頭機器能做什麼?
這個是我們在杭州市政府做一個項目,杭州的城市管理。杭州跟北京有一點類似,差不多一個量級,一個擁堵指數非常高的城市,我們想解決這個誠實的擁堵問題,通過我們對城市裏麵的馬路,上麵跑的車,跑麵的控製,比如說紅綠燈進行建模,進行模擬,進行預測,進行優化,希望能夠給政府管理部門給一些優化後的結果。比如說我們案例當中給了一條路,我們作為非常看似很簡單的事情,就是對這些行為進行優化之後,比如說紅綠燈,今天綠燈停60還是50秒,跟紅燈比什麼?調解這些參數,可以通過這條路的時間減少10%。
傳統意義上說,一般這裏麵有路口,有流量統計,但是非常粗糙。今天有一萬個攝象頭的時候,每輛車從哪到哪?在什麼時間非常變化什麼樣。有的時候東西向不一樣,這些非常多細節能給你優化空間。過去傳統這種建模手段很難到這種精細,或者這麼大規模數據處理分析上,有這麼一件事情上能夠對城市管理,或者非常宏觀的在通過大規模的微觀數據進行定量管理。憑著定型或者人的經驗知覺跨越到定量科學管理。
大家談人工智能,我跟一個非常牛的朋友聊天,我說我們跟今天大家有講觀點類似,人工智能離美國差距還是有的,特別是人才厚度上,和產業厚度上。我受到很大啟發,他說不是的,中國應該是非常具備這樣一個時期能夠挑戰或者來做世界級研究也好,或者是工作。我剛才講的城市管理案例不完全屬於人工智能這個方向,但是課題上我們中國有類似這樣,因為人口,因為城市非常特殊的命題,在難度上和規模上是世界級,即使是世界上最好的實驗室和學術公司並沒有非常好的手段來做,甚至沒有條件和基礎。中國有非常不少的這樣一些我們生活特殊的問題,有可能在加州沒有,在法國沒有,我們中國有。
我們觀點說在中國有這樣的命題,就能決定我們這幫年輕人,無論是技術從業者還是產業從業者能夠挑戰到這種高度。我就分享到這裏,謝謝大家!
本文來源於"中國人工智能學會",原文發表時間" 2016-10-26 "
最後更新:2017-05-23 16:32:23