閱讀723 返回首頁    go 阿裏雲 go 技術社區[雲棲]


專訪iDST華先勝:城市大腦,對城市的全量、實時認知和搜索

編者按:10月11-14日,為期四天的2017杭州雲棲大會將再度在杭州雲棲小鎮起航,作為全球最具影響力的科技展會之一,本屆大會將有不少阿裏集團專家以及各企業行業領袖的精彩演講。其中,IEEE Fellow,國家千人,阿裏巴巴 iDST副院長華先勝也將分享關於計算機視覺領域的前言趨勢,為此,雲棲社區提前對其做了專訪。

在7月底結束的全球計算機視覺頂級會議——CVPR 2017上,阿裏巴巴有四篇論文被大會收錄,這四篇論文全部出自阿裏巴巴人工智能研究機構iDST和人工智能實驗室。作為iDST視覺計算組負責人,華先勝還受邀發表了《Practices of Large-Scale Target Re-Identification》的主題報告,報告中提到了他所負責的城市大腦項目。

對外界而言,城市大腦是一個熟悉而又神秘的項目,如果用一個通俗而又古老的詞來描述,它就是智慧城市,但事實上城市大腦已經遠遠超越了大家通常談論的智慧城市 --  你很難想象要實現從感知到決策優化、到預測,以及到幹預的背後,技術團隊所麵臨的挑戰有多大。

華先勝告訴雲棲社區,城市大腦的核心就是大數據和大計算,挖掘大量城市異構數據的不可替代的價值是其任務。但數據也有不同來源,城市數據是視覺數據、公交數據、GPS數據以及人口等異構數據的聚合體,在這些數據中,視覺數據是量最大也是最核心的部分。華先勝指出,視覺數據相比其它數據更加全麵,這也是為何視覺方向需要投入更多的人力。

不難理解,相比電商中的商品搜索,城市大腦涉及到的問題更加複雜,如何把城市的車,人,物品,道路,建築等進行有效等索引和搜索?深度學習又如何幫助計算機視覺克服應用落地難題呢?

ad1d029c5bf5301768ace3b3365463a2735e0a6d

以下是雲棲社區對華先勝博士的采訪實錄:

(華先勝博士,國家千人,IEEE Fellow、ACM傑出科學家、MIT TR 全球 35 位 35 歲以下的傑出青年創新人物,曾擔任 ACM Multimedia 等大會程序委員會主席,是視覺識別和搜索領域的國際級權威學者。於 2016 年 4 月加入阿裏人工智能研究機構iDST科學家團隊,帶領視覺計算團隊的研發工作。)

雲棲社區:您帶領的iDST視覺部門在負責城市大腦項目,請介紹一下這個項目的具體情況,目前取得了哪些突破性的進展?

華先勝:首先從high level的角度來講,城市大腦實際上是大數據和大計算,挖掘大量城市異構數據的不可替代的價值是其任務。因為城市是一個非常特殊的大量的異構數據的聚合體,這其中的異構數據包含視覺數據、公交數據、GPS數據以及人口數據等等。

所以說,一座城市是非常複雜的,裏麵的數據量非常大,而其中量最大的就是視覺的數據。一個城市如果有十幾萬攝像頭,每天24小時在跑,產生的數據量是巨大的。但是這些數據的價值在過去並沒有被充分挖掘出來,海量設備的部署和運維成本很高,但它的價值遠遠不隻是傳統的車牌識別和交通處罰 …

因為深度學習對計算機視覺的推動,我們對整個城市的感知可以做得更好,不僅僅是車牌和交通違章的檢測問題,我可以知道更多的細節,例如車的形狀、型號、路徑、速度,同時也可以感知到行人和騎行人等等。也就是,今天的深度學習算法可以使我們對城市進行更為全麵的感知,這也是算法方麵的能力提升的體現。另一方麵是計算能力,雲計算、GPU、FPGA等這些都讓我們可以實現海量數據的計算,同時實時處理千路,萬路,甚至更多路的視頻…

有了對城市的全麵實時和全量感知,一旦遇到突發情況,馬上就可以找出相關的數據,比如查找嫌疑車、肇事車、嫌疑人。此外我們還可以基於分析後的數據對整個城市進行優化,比如說交通的優化。而且,城市大腦還可以進行預測,例如10分鍾以後哪裏會交通擁堵?20分鍾以後哪裏會有問題?還可以做更長一點時間的預測,例如,如果明天杭州會下大雨,在西城某個地方還有個大型的演唱會,在東城還有某個大規模的活動,這種情況下你大概就可以預測明天車流的情況,以及可能一些路段的事故幾率會提升好幾倍。根據預測出來的結果,我們可以提前進行警力和醫療資源的部署,甚至提前做一些交通管製、限流等等,不讓不好的事情發生。

總結起來就是,從數據源到感知,到決策優化,到預測,到幹預。城市大腦打造的是一個具有數據智能的城市。目前我們在杭州城區和蕭山區已經部署運行了很長時間,在算法上也有很多的突破,例如我們在服務器端用更優的算法可以實現更精準的車輛檢測、車牌識別,還有實時監測事件事故、預測交通狀況,以及整個視頻處理的這麼一套高效的流程。我們能做大規模的視頻處理,這對效率和穩定性都是一個很大的挑戰。過去的大半年時間,經過不斷的迭代優化,我們在整個鏈路的處理速度提升了20倍。

雲棲社區:計算機視覺部分在城市大腦項目中渠道了一個什麼樣的作用,它涉及到了哪些研究課題?和其它計算機視覺應用場景相比又有哪些聯係和差異體?

華先勝:毫無疑問,視覺的數據在覆蓋上沒有GPS數據好,因為它是個斷麵數據,但是視覺數據更加全麵,它可以知道整個路口的詳盡的情況。所以視覺絕對是核心的,投入的人也是最多的。

城市大腦的計算機視覺部分涉及到的問題除了視覺感知、識別的基本問題外,還有基於視覺的結構化數據之上的一些問題,例如搜索方麵。大家知道,拍立淘是電商的商品搜索,而城市的數據遠遠多於商品的數據,但它也是可以實時索引的。通過攝像頭的視覺數據進城市的索引和搜索,這是城市大腦的突破之一。

雲棲社區:為一座城市進行圖片搜索,如何實現?

華先勝:首先,數據量的問題,是索引技術要解決的問題,但是能不能搜出來,是特征的問題。城市圖搜的技術整體路線和拍立淘是類似的,首先要知道目標在哪裏,也就是目標檢測;然後是識別車或人等移動目標,以及這些目標的一些屬性;最後是要抽一個特征,一個高維向量,代表這個目標的本質特征。

一張圖像一般有很多目標需要處理,每個目標會作為一個單元放到索引裏麵去,然後每個單元就會有一個特征來描述它。城市圖搜比商品搜索問題更複雜一點,比如說車,同一商品的不同實例對於電商搜索而言,它們是一樣的,但是對於車而言就不一樣了,相同型號的車,不同車主的車輛是不相同的。從大體的技術上來說就是要找到一些細節特征區分不同的車和人。車的問題還比較好解決,人的特征描述和搜索問題,類人臉看不清楚的情況下,目前還是很困難的。雖然在公開測試集上,我們超越了公開發布的最好結果,但是我們覺得在實際應用場景中還是蠻困難的一件事情。

回到前麵提到的數據量的問題,倒排是通常使用的發發。但視覺沒有關鍵詞,我不能直接用倒排的技術。因此,我們要把這個視覺的特征變成關鍵詞關健詞,虛擬的、抽象的關健詞,然後通過這種方式來進行倒排,這樣就能解決數據量大的問題。當然,還有搜索量大的的問題,這個一般是通過係統的方法來解決。

雲棲社區:從技術角度和商業角度分別談談計算機視覺方麵麵臨的挑戰?對工業界而言,如何去克服這些挑戰?

華先勝:計算機視覺是屬於AI裏麵最重要的一部分,AI創業公司大部分是做視覺的,但是AI還不成熟,一個算法很難在多個場景下都能表現優秀,即便是相對成熟的人臉檢測、人臉識別,在不同場景下都還需要調優。

我覺得視覺技術如果要發展的更好,真正的產生實用價值,還是要結合具體的應用場景,結合行業的特點,把算法調到最優。為了克服一些算法本身的缺陷,你還可能需要一個很好的用戶界麵來降低算法缺陷的影響。

各行各業的場景和數據,是需要做深入的探究的,包括城市大腦也一樣,城市大腦的場景看上去和基礎行業差不多,例如,檢測、識別、跟蹤、搜索等等,但是你沒有深入了解這個行業,就很難做好並使其產生真正的價值。

雲棲社區:計算機視覺現在發展得如此順利,原因之一就是深度學習,如何看待深度學習已成為計算機視覺的標配?

華先勝:目前識別和搜索方向基本上是用深度學習,但在生成方向,有些傳統方法還在使用。

總體來說,這是一件好事情,因為過去計算機視覺離應用很遠,而隨著深度學習的到來很多場景都開始落地了。像SIGGRAPH這個會議,以前工業界參加的人就非常多,因為這裏做的很多研究是可落地的,例如在電影、動畫、遊戲等等行業;而當時,CVPR會議工業界的參與就少得多。今天,工業界參與CVPR的人數我相信也是遠遠超過過去的,工業界裏麵很多人會願意去看這些技術,這是好事情。

當然,就目前來說深度學習理論方麵沒有太好的進展,但它也不是沒有規律可循,做好的門檻還是很高的。

雲棲社區:深度學習在實現計算機視覺應用上存在哪些局限性?未來是否會被新的技術顛覆?

華先勝:局限性有很多,深度學習看上去很美,但實際上還有很多問題沒有解決好,比如說人臉識別在小規模上做得還是不錯的,幾千個人效果還行,但規模進一步擴大做對比就很難實現了;另外,視頻質量、分辨率、遮擋問題都限製了識別的效果,這一點機器無法和人相比。深度學習對數據的依賴也很強,小數據上的深度學習仍然需要更多的探究。

深度學習在近幾年的發展勢頭很勐,將來肯定也會有新的技術會顛覆它。

雲棲社區:上個月的CVPR,我們一篇名為《從視頻到電商:視頻衣物精確檢索》的論文被收錄了,能否為大家介紹一些其中有哪些創新點?

華先勝:這個工作采用了目前最先進的衣物檢測和跟蹤技術,針對明星同款檢索中存在的多角度、多場景、遮擋等問題,提出可變化的深度樹形結構(Reconfigurable Deep Tree structure),利用多幀之間的相似匹配解決單一幀檢索存在的遮擋、模煳等問題。該結構可以認為是對現有attention模型的一種擴展,可以用來解決多模型融合問題。

雲棲社區:做視覺的創業公司越來越多,您認為計算機視覺在哪些應用領域的前景最大?

華先勝:第一個就是交通安防,這也是我們城市大腦在做的方向,交通安防是最快能夠落地、市場潛力很大的方向,交通安防問題實際上就是城市的感知和基於感知之上的優化決策,預測和幹預;第二個是富媒體,就是通過視覺的方法去挖掘大量的視頻、圖像數據的價值。

另外,醫療圖像方向也是未來的一大熱門,雖然醫療領域的落地時間可能會稍微遠一點,但它的應用前景很好;還有工業視覺,未來可以通過攝像頭來代替過去絕大多數需要人眼來檢查、判斷的場景,這是一個尚待進一步開墾的領域;端上的視覺智能也是一個很好的方向,包括芯片和一些基於視覺的應用。

雲棲社區:談談您對人工智能商業化的看法。

華先勝:之前我就曾經講過,一個成功的人工智能應用,應該具備五個條件。

第一個是算法。你要有好的算法,你的算法要有先進性,你的算法不行一切都沒有了基礎。

第二個是要有數據。數據本身就是一個很大的話題,裏麵有數據的采集、搜集、清洗、有效的標注,甚至包括算法裏麵數據怎麼使用。

第三個是用戶。你做的這個東西應該有用戶的,因為有很多問題是需要用戶參與才可以做得越來越好。當然你從商業的角度來講,沒有用戶的話也不能夠長久。用戶本身是數據的消費者,也是數據的提供者,這過去在搜索引擎裏麵有非常重要的體現,可以說搜索引擎的技術能夠做那麼好,每個人都有contribution的。

第四個就是平台。這個就是涉及到你要有強大的計算能力和一套體係架構,能夠方便地去研發、部署和生產,這一套是必須要有的。當然現在因為有雲計算,所以這部分的瓶頸,對於很多企業來講已經沒有過去那麼困難了。

第五個就是有好的商業模式。如果沒有好的商業模式,就不可能長久。你做一個事情,低頻的事情沒有多少人用,或者不能給少量用戶帶來大的價值,最後產生的總體價值不夠的話,其實是很難長久的。這幾點,我個人覺得其實是都應該具備的。當然了,可能不同的商業應用,應該來說可能有不同的側重,但是我覺得都應該具備。

雲棲社區:您認為CV領域未來會有什麼樣的新變化?

華先勝:因為這個看從哪個level來講,如果從技術來講,深度學習本身的演化,這個是本身的重要的方向,例如GAN在更多場景的中的應用;大規模的視頻處理挖掘也可能是重要的方向。如果再往上層來講,我們前麵講的智能應用的角度,就是深入行業去讓這個人工智能,或者叫視覺智能真正的落地,然後產生真正的影響力,真正的價值。在這個方麵進行實踐和探究,回過頭來還會推動視覺技術的進一步的發展。隻有落到實處,才知道還有問題沒解決,現實世界是很殘酷的。

雲棲社區:在本次雲棲大會上,您會分享什麼話題?能否提前透露一些亮點,以及分享這個話題的初衷?

華先勝:我會介紹視覺技術在各行各業裏麵的一些應用以及挑戰,特別是城市大腦中的技術和應用。以前對城市大腦的介紹都是蜻蜓點水,這次會講得更深入一些,例如關於城市大腦裏麵的技術細節,以及它的價值體現,等等。


最後更新:2017-09-03 23:32:40

  上一篇:go  智能家居市場的崛起!Sonos推出多項軟件創新
  下一篇:go  metadata lock的解決方案