閱讀383 返回首頁    go 阿裏雲 go 技術社區[雲棲]


演講實錄丨華剛 計算機視覺的黃金時代:機遇與挑戰

計算機視覺的黃金時代:機遇與挑戰

華剛

微軟亞洲研究院視覺計算組組長、資深計算機視覺專家


華剛:大家下午好!今天報告題目是計算視覺的黃金時代,機遇與挑戰。如果我們看到這個題目,關鍵字有幾個,第一個是計算機視覺,第二個黃金時代,第三個第四個機遇挑戰。


    基於這四個關鍵字給大家講講我的理解和看法。什麼是計算機視覺?學術的觀點定義領域的話,計算機視覺我們從圖象和視頻中間提取數值和符號計算機係統。我們說一個願景能讓計算機像人類一樣看到並理解圖象,我們認為是一個黃金時代回顧一下計算機視覺真正發展的曆史。基本上來講計算機視覺曆史第一個萌芽階段,1955年到1979年的時間,這個領域還是相對比較新的領域。在55年我們對於計算機視覺提出一個展望,在MIT一個暑期人工智能會議上。我們在三四個月內能不能把計算機視覺工作解決了,直到今天還沒有完全解決。中間經曆了很多發展,在70年代麻省理工真正成立研究小組,開設第一門計算機視覺課程。


    從今天來講,我們看到會是非常簡單一個圖片,是一些像塊狀的物體,這是MIT第一篇博士論文。稱之為萌芽階段,大家處於一種探索狀態,這個領域怎麼走?早期期望說三個月把這個問題解決,甚至40年之後我們仍然沒有把這個問題解決。計算機視覺真正發展一個非常堅持的基礎,應該是從21世紀到80年代的時間,這中間發生很多時間,在80年代初光學支付(音譯)識別係統,應用於商業應用郵局。美國郵局大家利用信件交流方式很多,包括公司各種商業應用,涉及到郵件分檢的問題。


    這中間發生了幾個裏程碑事件,包括三維視覺的理論體係基本完備了。到90年代初人臉和語音識別,統計學識別方法已經引入到計算機視覺上了。計算機視覺真正爆發時間,我認為從21世紀10年代中,涉及到幾個方麵的因素。第一個我們進入互聯網時代,對於圖象數據積累,以及我們對硬件技術的發展,我們對攝像機前端這種硬件設備技術也是在日益增進,包括微軟代表3D設想傳感器帶來的新的實際應用。


    如果要從這三個階段中找一個比較代表性的節點,我認為在爆發階段是深度學習模型,它為什麼會對計算機視覺帶來本質上的影響和變化。我們更廣泛看計算機視覺應用的話,在這些年產生非常廣泛的應用,包括三維圖象的建模,包括監控,以及人機交互產生非常大的影響。為什麼處在計算機視覺黃金時代?我認為是一個更多的工作,CVPR是我們計算機視覺的聯會。當我自己還是一個博士生的時候,去參加CVPR,隻有兩家公司招聘,一家公司(桑娜福音譯),一個是西門子。到2016年的時候,有一個網站上千條的工作信息,我們真正這個技術開始進入產業界。


    這個CVPR有更多人參與到這個年會,CVPR今年年會已經到3500人參加這個會議,5年前就是1000人左右。最重要我們有更多資金注入進來,現在博士畢業生很輕易拿到一個100萬的年薪工作,今年CVPR將近100家公司占駐這個CVPR,我們看到越來越多的資金流向這個領域。我自己作為CVPR  主辦成員之一,我們在會場設計上我們希望會達到5000人的規模。


    這裏一個朋友,講的一句話,在他36年的從事計算機視覺研究一個經曆中間,從來沒有看到我們這個領域像現在這麼好過,他說我們在計算機視覺第一個黃金時代,以前沒有過。他自己現在也在亞馬遜作為一個保密狀態工作,在幫亞馬遜做一些事情。黃金時代我們實際上有一些什麼樣的機遇?為什麼這個階段產生爆發性的狀態。


    前麵兩位老師提到一些,我們擁有了更多數據從各個方麵來的。第二個方麵,剛才山老師提到我們計算機視覺很多方法,可能在2、30年前被學習過,當時計算能力還不夠。第三個就是深度學習模型,在微軟研究院同事做的傳感網絡,已經做到1001層,在7、8年前不可想象。下麵我就展示一下微軟研究院在這個階段我們一些小小的成果。


    我們微軟認知服務,我們已經在上麵發布了非常多的算法API,包括計算機視覺方麵、語音方麵、自然語言處理方麵包括知識庫方麵,還有搜索庫方麵。人臉識別方麵API,我們在兩年以前人臉識別API已經有非常有成功的。Windows  hello。我們最近另外一個工作,怎麼在圖象和風格之間做轉換,左邊這個是所謂風格的圖,右邊是所謂內容圖,我們這個應用算法一個目的,我怎麼能夠把右邊這張圖渲染成左邊圖的風格,實際上我們有一些最新基於深度學習一個方法,我們真正試圖去理解怎麼描述這種圖象的風格。


    這裏給看到更多的結果,當固定內容圖的時候,我們可以把它渲染成不同的風格,用同一個網絡。我們說計算機視覺黃金時代機遇在什麼地方?我參加他80歲生日一個論壇,非常好的朋友也算他的學生,馬裏蘭一個大學教授,他就講一個觀點,因為我們講計算機視覺帶來的影響?第一個觀點,深度學習模型就像一個和麵機一樣,你把很多東西放進去它出來非常好吃的東西。它是一個非常好的東西,我們要利用好它。它是一個讓眾生變的平等的東西。我雇了兩個高中生,編程能力很強,在計算機視覺方麵很低,不管你有一年的經驗,還是多年經驗,讓它飛固然是好的模型。因為涉及到很多觀點,媒體朋友不要隨便轉載這些觀點,讓大家有一個體會。


    涉及到黃金時代機遇什麼?實際上把這個技術門檻降低不少,現在很多人不需要經過10年的訓練能去做一些計算機視覺應用,或者是技術。所以我認為這實際上是產業界一個機遇。產業界很少有人去願意走40步的。實際上從產學研角度來講,這個學界應該還是更多去開創一些新的研究領域,能夠做一些更好的事情。


    黃金時代另外一個機遇就是創業、創業,我們很多老師已經創業了,像山老師,像朱瓏一直學術方麵走的比較多的意圖,當我看到山老師公司的時候,是一個中英文混合體,山老師到底是看他還是看他,我不太明白。一個是人臉識別,一個是自動駕駛,人臉識別目前離實際應用最近一個,而且各個方麵產生實際應用也是非常好的過程。我們遇到挑戰什麼?其實這麼多年計算機視覺一直試圖大家問自己一個問題,什麼是計算機視覺殺手級應用?它是人臉識別嗎?還是安防監控,還是輔助醫療圖象診斷,我想大家沒有回答,更多是摸索和探索。至於自動駕駛,我們還是保守推動這個行業,不要寒冬。我們還要小心謹慎一樣,不要讓殺手級應用真正變成殺手應用。


    另一方麵,這個問題不僅在中國存在,其實在美國很多大學裏麵教授,做計算機視覺方麵很多進了公司,或者自己出來創業。大家問一個問題,這些教授創業和進了產業界,誰來培養下一代的學生,這個問題值得思考。


    最後自己關於計算機視覺思考,這三個方麵。第一個方麵,為什麼深度學習對計算機視覺好用?實際上大家如果在計算機視覺領域,計算機視覺本質是解不適定的問題。第二個深度學習本質上提供了用前饋的模型解反問題的框架。這是一個非常在高層麵上一個理解的解釋,本質上解這種不好的反問題的時候,我們有了反問題的框架。我自己對整體上的方法非常欣賞,但是自己還有一些領域的知識放在裏麵。


    第二個,計算機視覺發展到今天,40年前從人工智能科學研究共同體分離出來有一個原因,40年前人工智能,包括語音識別,包括計算機視覺技術沒有成熟。2010年計算機視覺、自然語言處理,語音識別這些技術發展到一定程度,天下大勢,分久必合,合久必分,大家思考一個問題,最終人工智能方麵技術我們怎麼能夠集合到一起,為綜合人工智能係統服務。


    最後講,計算機視覺產學研一個互動。這個問題很簡單,本質上認為所謂互動三個要素一個流通,研究人員、資金和技術,這個方麵做的比較好,大家可以關注一下微軟亞洲研究院博士生和學生培養的工作,我們計算科學的研究十幾年曆史,跟各個高校聯合博士培養一個項目,這個學校的學生可以在我們研究院做五年的學習,拿到博士學位。包括給學校提供資金上的支持,在座有很多出來創業或者是產業界,還是想我們在人工智能產業上我們從中得到一些東西,還想到回饋給這個領域。謝謝大家!

本文來源於"中國人工智能學會",原文發表時間" 2016-10-26 "

最後更新:2017-05-22 16:37:12

  上一篇:go  IT眾包APP服務案例:物業釘釘微應用
  下一篇:go  C1X 係列 : 多線程 (N1494)