閱讀863 返回首頁    go 技術社區[雲棲]


微軟研究院芮勇談計算視覺:從感知到認知的長征


0?wx_fmt=jpeg

2016 CCF大數據與計算智能大賽於2016年9月24日在中國·北京梅地亞中心酒店開幕


0?wx_fmt=png


微軟亞洲研究院常務副院長,著名人工智能專家芮勇在大會上帶來了《計算視覺:從感知到認知的長征》的主題報告芮勇理性分析了最近大熱的人工智能和計算機視覺,並提出了計算機視覺發展的三大基石和未來可能的四大發展方向


他認為,計算機視覺在從感知到認知的過程當中,想要做的更好需要靠三方麵:一是機器學習算法的本身,第二個和具體應用相結合,三是獲取更有意義的數據。


大數據文摘為您帶來一手演講實錄,以下為芮勇演講全文:

*根據主辦方提供的速記整理,在不改變原意的情況下,部分有刪改。


◆ ◆ 

導語


我今天想聊的一個題目是,計算機視覺從感知到認知的長征。同時再謝謝梅院士前麵的演講(點擊超鏈接查看梅宏院士演講全文《院士梅宏:真正的大數據應用體現在數據挖掘的深度》


最近人工智能也很火,很多看似似是而非,有的時候都已經有點泡沫的感覺,如果一件事情你隨便到街上聊聊,連買菜大媽都跟你聊的時候是不是有點過了,人工智能跟那個也有點關係。今天我們要以一種很理性的態度看待人工智能,計算機視覺當然是人工智能的一部分。

 

◆ ◆ 

計算機視覺發展—神奇的2016


下麵跟大家分享一下,我對這個計算機視覺過去這450年發展的認識。今年2016年也是很特殊的一年,我不知道在座的同仁和媒體的朋友們有沒有注意到,80年前圖靈提出圖靈測試。圖靈測試剛才梅院士也提到了,您拿一個簾子後麵你也不知道是一個人還是機器,你問他各種問題能夠回答,如果分不出是人還是機器的時候,這個機器就已經通過了圖靈測試。在1936年的時候,圖靈測試被提出來。那70年以前,在1946年的時候,其實是第一台電子計算機在賓州大學被造出來。在60年以前有一個詞叫做(英),其實61年之前都沒有這個詞,這是60年以前被造出來的,所以2016年是很有意義的一年,很多大的事情都發生在80年,70年,60年之前。

 

那計算機跟人工智能的關係,在人工智能很早期的時候,有人提到我們如果能夠把視頻攝象頭接到一台機器上,讓機器能夠看見外麵的世界知道怎麼回事,這就是人工智能其中一個願景。


所以從最早開始計算機視覺就是人工智能的一部分。經過了過去50年的發展,計算機視覺也是一步步往前走,可以看成最早畫草圖一樣,然後呢,再發展成有一些看上去真的是像回事,到最後今天我們是看到的是一個比較美麗的圖畫。那麼計算機視覺它本身也經過了從草圖,到圖片,到圖畫這個過程。從最早圖象的攝取到圖象的處理,到圖象的識別到圖象的理解,從感知到認知的這麼一個過程。

 

◆ ◆ 

從感知到認知


下麵想給大家看一幅圖片,什麼叫做從感知到認知,哪些東西是感知,哪些東西是認知。

0?wx_fmt=jpeg

大家看這麼一幅畫,很久以前的時候,這個計算機視覺的專家隻能做出上麵第一個部分,把它的特征提取出來,一些線條,塊,這是大概450年前做的事情。


再之後大家不滿足與隻做這個了,說我能不能知道這幅圖片是室內的還是室外的,這裏麵是不是有人,還是沒有人,所以第二步是給這個圖片打上幾個圖標,這幅圖就是室外,裏麵有人。大家還不滿足,光這個還不夠,我們能不能再往上提升一步。


再往下的話,我能不能說給計算機看一幅圖片,他不僅僅像我剛才提到的第三步,像第四步做出來的,讓計算機看成圖片之後自動生成人類可以理解的自然語言,就是生成這麼一句話,這就是把自然語言和計算機視覺相結合。


再往下走,有這麼一幅圖片,我們小時候做過看圖寫作文,說一定能夠寫出一篇有意義的作文,這就是一步一步從感知到認知的幾個過程。

 

最早做感知是你的紋理,色彩,形狀,這個做計算機視覺的人也是幹了一輩子,幹了450年還出了一些比較好的結果,比如說這麼一副圖片給計算機去看,大家就知道哪幾個點應該提取,哪個是不應該提取,等等這是一件事情。再往下,我們想知道這個圖片它到底裏麵包含什麼物體,我們叫做圖片的分類。


0?wx_fmt=jpeg


這個又包括三個小問題:

第一個給計算機一幅圖,他能夠告訴我這圖裏麵有一個小朋友有一隻狗;

第二個問題不僅僅能夠告訴有一個小朋友,有一隻狗,還能夠告訴我他們坐在哪裏;

最後還能夠告訴我這個象素在小朋友身上,還是在哪,一步比一步難。最後看圖象的分類做計算機的人知道有一個比賽全球幾乎所有的一流大學和大企業的研究院都參加這個,它是1000個類別,1000個類別你讓計算機先學,都訓練好,然後再測試的時候,給計算機看一個從來沒有看過的圖片,你告訴我這張圖片是這1000個類別裏麵的哪一個,看似簡單,實際上很難。我如果告訴你這1000個類別裏麵有120種狗,我都分不清楚,太厲害了。

 

◆ ◆ 

深度學習降低錯誤率


那在2010年的時候,這個錯誤率就是全球排第一的冠軍的錯誤率是28%,這是2010年。之後2010年也是20%幾,直到2012年的時候,這個深度學習出來了,深度學習最早出來的是在0807年的時候,微軟研究院幾個同事,一下子把錯誤率降到30%。從來沒有降這麼快,就是因為他用了深度學習,那是在09年。


2012年的時候深度學習進入了計算機視覺,進入之後一下子把錯誤率從25%,降到16%。之後每一年的冠軍,都是他們做的。直到2014年的時候,這個斯坦福的博士就說,這個計算機似乎能力越來越大,錯誤率越來越低,我們人到底是什麼樣的錯誤率。他把自己關在屋子裏麵學習樣本,之後他去做測試,錯誤率5.1%,這是非常高了,我們在座的都沒有這個水平。去年年底我們微軟研究院的同事做了一個很深的深度學習把錯誤率降到3.6%,這個超越了人類對圖象分類的水平。

 

0?wx_fmt=jpeg


為什麼可以做這麼好?在2012年的時候深度學習做到八層,我相信像梅院士還有別的諸位在890年代的時候都寫過神經視覺網絡,我當時也寫過,當時隱含層隻有一層,每層下來要求片導的,這是在算法上有問題。


第二個是數據量太小,第三這個計算能力太低,當時在一台486上跑,今天都不可想象。今天這麼大東西在486上跑幾年都跑不完。2012年新的數據出來了,八層的隱含層的DAN也出來了,所以錯誤率在下降,到2015年我們做了152層的,人類曆史上從來沒有達到這麼深,把錯誤率降到了3.5%,這個不是說你很容易就能夠加一層的,在我們做到152層之前,全球所有的研究機構和大學做的最深的就是122層,這個要從算法上進行一些突破性的科研,比如說用這個去抓。因為這件事情,在2015年底的時候,參加三個分類項目都拿了第一名,並且比第二名高出很多。比這個更難的是我不僅僅知道這個小朋友,這個狗,我不僅僅知道他們在裏麵,我還知道他們在什麼位置,這個基本上可以做到這樣的程度。

 

◆ ◆ 

物體檢測


那麼我們去年開始做這個物體檢測的時候可以做到這個程度,這個圖片已經是很複雜了,一把餐刀這麼小的東西都可以被檢測出來。

0?wx_fmt=jpeg


這就是用深度學習做的非常好的結果。那比物體檢測更難的一件事情是我希望他在每一個象素上都能夠知道這個象素是屬於哪一個物體的,這個東西我們如果真的能夠做到它有什麼用,今天無論是無人機也好,還是無人車也好,如果上麵有攝象頭都知道周圍的環境是什麼就可以做非常多的事情。給大家看一段視頻,叫做象素級的精準識別。左邊是輸入的視頻,右邊是我們做物體檢測的結果。天空,樹,車,道路,小朋友,都可以分辨出來,這是在進入了從感知到認知的第二個階段,第一個階段是特殊提取,第二個階段是物體的識別和象素級的分類。第三類要再進一步理解,什麼是一個圖片,什麼叫做(英),其實是有什麼物體,你對圖片和內容要有更深的理解。


舉一個例子我們今天有很多搜索引擎,我們想做什麼呢,我們想有沒有辦法讓計算機真正去理解這幅圖片到底裏麵的內容是什麼,如果能夠做到這個,那這就是進一步對圖象的理解。


0?wx_fmt=jpeg


我給大家舉一個例子,比如說現在有一個圖片,我要想測試一下,圖靈測試,我待會會給大家看兩段文字,上麵這段文字顯示的是說“一個人在網球場上拿著一隻網球拍”,下麵是說“這個人在網球場地上打一場比賽”,這兩句話一個是讓人看見這幅圖片以後寫的,另外一句話是讓計算機看見這個圖片寫的,我們看看到底是上麵這句話還是下麵這句話?上麵這句話是機器寫的,基本上有一半人都猜錯了,這個技術已經可以通過圖靈測試。我們在做一個測試,上麵這句話寫的是“小河邊停了一輛自行車”,下句話也是寫的稍微文言了一點,大家覺得上麵那句話是機器寫的請舉手,下麵這句話是機器寫的請舉手?稍微多一點,我們看看上麵這句話是機器寫的,這個具體的問題已經可以通過圖靈測試。

 

0?wx_fmt=jpeg

還有這幅圖的例子,這裏麵有很多的工作要做,比如說故宮,長城,景山公園,白宮等等,這些很著名的景點你都要知道,還有名人你要知道,我們把全球100位最著名的人物都能夠識別出來了,之後還有用深度學習的辦法生成這句話。


 

◆ ◆ 

四大方向


今天已經從感知到認知的過程中已經走了這麼一步,我覺得是挺大的一個裏程碑,但是其實還可以有很多方向,今後我們再接著做,有很多方向都挺有意義的。


我這寫了四個:

一個是在語義層次上他引申的一些語義計算機有沒有辦法知道;

第二給他看一段視頻他是不是也能夠看懂視頻是什麼意思;

第三讓它更加有交互性,你跟聊天機器人聊天的時候,你給他上傳一幅圖片他會給你說什麼;

第四挺學術的,也是最近一個很重要的計算機視覺方向大的研究方向,不讓計算機看一幅圖片,我問他一個具體的問題他能夠回答出來。

 

1、Go Higher 語義層次上的引申


我們先看第一個,go higher。

0?wx_fmt=jpeg

在語義層麵上讓計算機理解之外的話,我們看計算機看了這幅畫,這是奧巴馬,後麵是一群象,去年我們的計算機隻能輸出這麼一句話,叫做一群象邊上有一個人,因為去年還沒有做全球100個名人的識別,去年隻能做到一群象周圍站了一個人,今年已經可以做到一群象周圍站的是奧巴馬。


但你如果讓一個真正的人去看這幅畫,如果大家對美國大選和美國政黨有一些背景知識的話,其實這裏麵有很深的含義的,不是說奧巴馬站在一群大象旁邊這麼簡單,美國有兩大政黨,一個是共和黨,共和黨他的(英)是大象,民主黨是驢,共和黨的人和他在競爭,這幅畫你給一個老美看的話,他這個引申的意思是說奧巴馬被一批共和黨的競選者在追趕著。今天我們還沒有辦法做到這樣,這背後需要大量的知識庫。我們希望今後我們做到給計算看了這樣一幅圖片,說出這樣的話。

 

2、看懂視頻


第二個是我剛才給大家看了,在圖片讓計算機看,他可以理解生成一句話,我們後來其實又做了很多工作,把一段視頻讓計算機看,看完之後他也能夠寫出這樣一段話來,是基於深度學習的,因為視頻是三維的東西,所以我們又做了一些跟三維有關係的一些工作,把整個這種圓的模型和視覺分析的模型放在一起,就可以生成一段文字描述視頻。


0?wx_fmt=jpeg


3、增加交互性


第三個方向我們可以讓計算機變得更有交互性。


在座的有朋友用過小冰,很多人都跟小冰聊過天,小冰最早用文字跟大家聊天,之後你上傳一個圖片他還可以跟你的圖片聊天,聊天要是有意思的話,如果光告訴你一個圖片是什麼,其實那是很沒意思的,比如說我是一個用戶,我給小冰去上傳了這麼一個圖片,如果小冰告訴我說圖片裏麵有兩隻貓,一隻是花貓,一隻是黑貓,這個一點意思都沒有,所以他要有更深的語義的了解,小冰會說小眼神太犀利了,這對語義的理解又上一步。比如說這些圖片上傳給小冰,他會說這朵花黃色的都有點透明了,真美,第三幅圖你經常去健身房八塊肌肉都出來的時候,他會說大叔真努力,如果你的辦公室在非常高樓層的時候,你上傳他會告訴你,在頂層辦公會是一種什麼樣的體驗。這是對圖片的理解的第三個方向。


4、VQA


第四個是更難的,第四個就是,他給計算機兩個輸入,一個是輸入是兩個圖片,第二個輸入是一句話,自行車框裏裝的是什麼,給計算機看兩個東西,一幅圖片還有一個問題,這個問題是自行車框裏裝的是什麼,這個問題就比較難了,但今天在一些例子的情況下,我們已經可以回答這樣的問題了,這就是這幾年計算機視覺突飛勐進的發展,讓計算機知道圖片最主要的亮點在什麼地方,經過兩層迭代他就會知道。

 

這個東西怎麼做呢,有四個方向:

一個是我們需要對它的文字有好的描述,我們讓計算機看這樣幾個圖片,同時我問計算機一句話,在一片空曠的沙灘上,兩個藍色的沙灘椅中間是什麼,這個其實真的是有點難度,那麼經過我剛才說的那些算法,第一層是這樣的,第二層最亮的在傘上麵,在兩個藍色的沙灘椅的中間。還有一些例子,左上角那個例子,是什麼在泥濘的土路上拉著一個人往前走,他知道是馬,在這個右下角這個例子,讓計算機看這麼一副圖片,問他一個問題,就是他待的這個角在什麼地方,這是第四個方向。

 

◆ ◆ 

三座基石


剛才跟大家一起探討了計算機視覺過去50年從感知到認知的過程,從最早的特征提取,一步一步在往認知這方麵走,今天已經取得了一些初步的成績,但其實今後還有很長的路要走,還做的不是那麼準,看圖寫文章就更難了,還要接著做,因為我們知道一幅畫怎麼去把一個很複雜的環境場景能夠描述出來,並且能夠理解,這仍然是一件非常有挑戰性的事情。

 

0?wx_fmt=jpeg


那麼怎麼才能夠做得好呢,在座的有很多朋友們是做大數據的,我覺得大數據的朋友們也好,計算機視覺的多媒體的朋友也好,我覺得大概有三個很重要的基石可以把這個事情做好:


第一是機器學習本身,這幾年適度學習很熱,下一個更好的深度學習的算法在哪裏,所以這是機器學習本身要進行的發展。


第二個是Domain expertise,如果光是一批會做機器學習算法的人其實也做不出大的事情,還要要和具體的垂直行業相結合。比如說我們最近跟中科院的植物所有一些合作去識別花卉,春天或者秋天的時候看到一幅畫很漂亮沒有見過,我問問周圍的花也沒有人知道。今後如果手機一拍,告訴我這叫什麼花,並且還告訴我最早是從南美洲引進的,這些對於我來說非常有意義。怎麼能夠做得好呢?光有機器學習的專家也不夠,我們的植物學家他們知道怎麼去分別一個花,看它的花瓣,還是說它的莖他的葉等等,一個好的係統要有一個好的機器學習的算法,加上垂直行業專家的一些支持。


第三個就是bigdata,意思是說光大還不過,光是大數據還不夠,我覺得要既大又有代表性。為什麼這麼說呢,如果我們整個去學習的空間是整個大禮堂的話,然後我們有很多數據,非常非常多的數據集中在這個角落,你讓機器學習,學一輩子他就沒有辦法學對,光數據大不夠的,一定要有代表性,我這些數據能夠比較好的分布在整個大禮堂的各個角落,那機器學習就能夠學的比較清楚。

 

所以具體小節一下,就是說今後在這個計算機視覺,從感知到認知的過程當中,如果要做得更好的話至少要有三個很重要的方向,一個是機器學習算法的本身,第二個和具體應用相結合,第三個更有意義的數據使得整個係統會做的更好。我就跟大家聊到這裏,謝謝大家。


--------


啟動儀式上,各行業大咖發布了來自各創新企業與科研機構的11道高質量大數據與人工智能創新賽題,涉及智能電網、搜索廣告、O2O營銷、輿情分析、監控識別、計算廣告、無人駕駛、市場預測、LBS營銷、氣候預測等多個熱門方向,將為圖像處理、自然語言處理、用戶畫像、推薦係統等領域提供大量來自真實場景的問題與數據。


2016CCF大數據與計算智能大賽邀您登陸大賽指定平台DF(DaraFountain,https://www.datafountain.cn),迎接大數據競賽帶來的挑戰。

 原文發布時間為:2016-09-27

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-06-05 15:32:13

  上一篇:go  對話黃誌敏|探索數據領域的新可能 文科生如何做編程和統計?
  下一篇:go  這些廢棄的 HTML 標簽不要用