專訪微軟研究院張正友:從“張氏標定法”到人機交互,20年視覺技術的探索
編者按:為期四天的2017杭州雲棲大會(10月11日-14日)將再度在杭州雲棲小鎮起航,作為全球最具影響力的科技展會之一,本屆大會將有不少阿裏集團專家以及各企業行業領袖的精彩演講。過去一個多月,雲棲社區對大會嘉賓做一係列專訪(關注“雲棲大會”社區公眾號了解更多大會信息)。本期我們采訪的是ACM Fellow,IEEE Fellow,美國微軟研究院首席研究員張正友,他將在雲棲大會·視覺雲計算生態峰會上分享Emotionally Intelligent Vision System,探討從終端到雲端的情感智能視覺係統。
張正友博士,是世界著名的計算機視覺和多媒體技術的專家,ACM Fellow,IEEE Fellow。他在立體視覺、三維重建、運動分析、圖像配準、攝像機自標定等方麵都有開創性的貢獻。
張正友帶領的微軟研究院視覺團隊在學術研究上做了大量的工作,除了在頂尖會議(比如CVPR、ICCV、ACM Multimedia、ICME)上發表了大量文章和幾部專著,而且在微軟很多產品裏都有團隊的貢獻,比如Windows、Office、Xbox、Kinect、Skype for Business、Office Lens等等,這支團隊在微軟內部的重要性不言而喻。
故事從“張氏標定法”談起
1998年,初到微軟研究院的張正友發表了一篇名為《A Flexible New Technique for Camera Calibration》的論文,也正是這篇論文進一步奠定了他在計算機視覺領域的地位。文中提出的基於移動平麵模板的相機標定方法,就是業界普遍采用的“張氏標定法”。
“張氏標定法是我1998年加入微軟做的第一個項目”,張正友告訴雲棲社區。
攝像機標定是三維計算機視覺的第一步,所以必須知道攝像機的參數才能從攝像機拍攝的二維圖像裏恢複出周圍場景的三維信息。“那時標定都是用一個非常精確製造的三維標定物,比如印有特殊標誌的正方體,貴且不實用,我這才發明了用二維標定板做攝像機標定。”他回憶道。
由於二維標定板的製作非常容易,一般的打印機就可以打印出來,因此這一方法得到了廣泛應用。(這裏有一篇短文分享了張氏標定法發明的經過,感興趣的朋友可以看看。)
有趣的是,盡管張正友早在二十年前就發表了《A Flexible New Technique for Camera Calibration》這篇論文,但直到2006年,他本人才知道論文提到的方法被業界賦予了“張氏標定法”的名稱。
“因為對人機交互感興趣,我認為除了計算機視覺,語音識別應該必不可少,所以我在2001年至2006年轉入語音識別研究團隊,專注語音增強和說話人識別研究,沒有去參加任何計算機視覺會議。2006年我開始帶領現在的多媒體團隊同時做語音和視覺,也開始重新參加計算機視覺的會議,這時我才知道我發明的標定法被稱為了張氏標定法。”
“我的研究團隊在近二十年的研究工作中主要圍繞著用計算機視覺來理解人的形態和行為去幫助人和人之間的溝通及人和機器的交互,最初是通過幾何和物理模型對人的形態和行為建模,然後加入了機器學習。”
張正友表示,從1999年開始就提出了model-based modeling方法對人臉三維建模,也就是通過采集大量的人臉三維數據通過機器學習建立參數化的三維模型.因為這個三維模型隻需要很少的人臉形狀和動態參數,針對某個特定人,僅需少量的數據就可以估計出這個人的各個參數,即使圖像分別率低、光照條件差,算法依然擁有很好的魯棒性。事實上,此後很多人都在采用類似的方法,包括做人體全身三維建模。
值得注意的是,在這個最初模型裏形狀參數和動態參數是獨立的。在研究人體全身建模時,他們發現這個最初模型太粗糙。對不同形狀的人,比如肌肉強壯的和不強壯的,同樣的動態變化造成的形狀變化可以有很大的差別,於是他們第一個提出了tensor-based body modeling,也就是將形狀、動態和三維幾何描述作為一個整體用張量(tensor)來描述,取得了非常好的效果。
精準表情識別VS人臉識別
張正友帶領的微軟研究院團隊在人臉檢測方麵的起步可以追溯到2006年,主要側重於實時性和人臉側麵檢測的魯棒性。微軟內部用的人臉檢測技術基本上都是由團隊提供,甚至也可能是最早用三維傳感器做手勢識別和人類行為理解的研究團隊之一,早於微軟推出Kinect傳感器。此外,團隊還在沉浸式遠程呈現 (immersive telepresence)方麵做了大量的研究,目的是將不同地點的人進行合成,讓不同時空的人感覺是在同一個時空下,進行麵對麵的交流。
近年來,人臉表情識別逐漸受到了業界的關注。關於人臉表情識別,有人可能想到用這個技術去測謊,這確實是一個重要的應用,還有些應用包括醫學領域比如疼痛跟蹤。“我個人感興趣的還是人機交互”,要想機器和人進行自然交互,機器必須要知道交互人的表情,也就是說機器需要情商(emotion intelligence),就像人需要有足夠高的情商才能和諧的融入社會。從技術角度看,它和人臉識別都屬於細分類。一個人和另一個人都有很多相同的地方,比如都有眼睛鼻子嘴巴,人臉識別就要把那些相同的東西去掉,把人和人差異的特征找出來。人臉表情識別也類似,不但需要把人和人有些相同的東西去掉,也要把人和人之間的差異去掉,但要把不同人相同的表情特征保留下來,所以非常有挑戰。
要實現精準的表情識別,必然會麵臨各方麵的技術挑戰。張正友表示:“我應該是世界上第一個用神經網絡做表情識別的。1996年我在日本學術休假,和研究人是如何做人臉識別的認知科學家交流,利用他們采集的數據,想用機器來做人臉識別。當然那時數據量少,我隻用了三層的神經網絡,特征是直接用Gabor小波參數。1997年發表了一篇會議文章,1999年發表了一篇雜誌文章。二十年過去了,無論數據還是算法都有很大的發展。現在我們發布在微軟Cognitive Services的Emotion API產品,用的是深度學習的方法,用了16層的神經網絡和兩百萬張圖像訓練出來的。”
目前,人臉表情識別還處於嬰兒階段,研究的僅是基於圖像的基本表情分類。人的表情是動態的,所以需要做基於視頻的表情識別。要實現精準的表情識別,可能需要跟蹤人臉每塊肌肉的運動,做基於FACS(Facial Action Coding System)的表情分析。人的真正感情可能在所謂的微表情上表達出來,這樣就需要用高速攝像頭。此外,還需要跟認知科學家緊密合作。
視覺計算和深度學習的碰撞
在兩個月前結束的CVPR(IEEE國際計算機視覺與模式識別會議)上,論文數量及參會規模都提升到了一個新的高度:收到了2620篇文章,有5000人參加,相比去年的CVPR增加了40%,計算機視覺在全球範圍內的關注度可見一斑。
細心的讀者可能發現了一個現象,本次大會上的優秀論文中出現了不少華人的麵孔。對此,作為今年CVPR的大會主席,張正友激動的表示,“看到計算機視覺蓬勃發展很為高興,作為華人,看到大量的華裔麵孔和大批的參展的中國公司,我很驕傲。”
他認為,華人對計算機視覺的發展一直發揮重要的作用,但一個新現象是越來越多的人從中國來參加國際會議,越來越多的計算機視覺技術落地中國,視覺創業公司如雨後春筍。張正友希望,中國的計算機視覺研究和應用能更上一個台階,為中國人工智能領域在世界上占一席重要地位發揮作用。
時下,全球視覺技術的趨勢愈演愈烈,其中很大的一個原因正是因為大數據深度學習發揮的作用,在中國因為人口眾多和對數據使用的寬鬆政策,這個優勢尤為明顯。但是,隨著時間的推移,人們對個人隱私會更加重視,優勢會偏向那些擁有原始數據的公司。因此,計算機視覺作為人工智能的一環,需要和垂直產業結合落地。
深度&豐富的場景應用
雖然深度學習的文章在現在的會議中占有很大的比例,但很多人已經開始認識到,深度學習和人的學習能力仍有很大的不同。人能夠舉一反三,很快學習新東西;人能夠在執行任務中不斷學習,在挫敗中成長......等等,這都是深度學習現在所缺乏的。此外,現在視覺進步比較大的大都屬於感知範疇,比如是什麼物體、是誰等。視覺研究需要往更高層次發展,進入認知理解階段並擁有常識推理,這也是為什麼現在開始有不少研究將視覺和語言結合去理解圖像視頻。
視覺技術的應用前景無論如何都不會高估,它將涉及幾乎人類的所以領域,包括人們熟知的無人駕駛、安防監控、金融認證。但隨著中國經濟的發展,對弱勢群體的關懷必將加強,比如老年人和殘疾人,計算機視覺在那些場景的應用將前途無量。
張正友表示最近一直在研究如何將計算機視覺實時地大規模地有效地應用到實際場景中,本次雲棲大會上,他將就此分享計算機視覺在雲計算上的看法。
最後更新:2017-10-11 08:03:04