【ICCV 2017華人雄起】何愷明包攬兩項最佳論文,40%投稿來自中國
計算機視覺頂會ICCV 2017各大獎項公布:何愷明包攬兩項最佳論文獎;賈揚清率Caffe團隊獲“無私貢獻獎”;DeepMind CEO 哈薩比斯導師Tomaso Poggio獲得終身成就獎。沿襲CVPR的勢頭,ICCV 2017華人表現依然強勁,有40%的投稿來自中國,清華大學投稿數量在所有機構中位居第一。
兩年一度的計算機視覺領域頂會ICCV 2017正在意大利威尼斯召開。由於計算機視覺及相關領域的快速發展,本屆ICCV參與度創曆史新高,共收到2143篇論文投稿,比上屆增加了26%。其中,621篇被接收,接收率約29%,與往屆持平(ICCV 2015 收到 1698 篇投稿,錄取率為30.3%)。
投稿數量統計:ICCV 中國崛起
在ICCV 2017的各種統計數字中,可能最引人矚目的,是中國崛起。
根據投稿作者的郵箱地址,有844篇論文(將近40%)來自中國,美國以934篇位居第一。看投稿數量,中美兩國也遙遙領先。
其中,投稿數量最多的機構是清華大學,超越了CMU,超越了穀歌,超越了MIT。上海交通大學和北航分別位列第八、第九。
新智元粗略統計,今年ICCV 接收論文中,有40%的第一作者都是華人。
雖然不盡是華人,我們也在本屆大會主席團隊中見到了熟悉的名字,本屆ICCV的大會主席之一是微軟亞洲研究院首席研究員池內克史。兩位Workshop Chair,一位是微軟的Sing Bing Kang,另一位是預定出任CVPR 2019 程序主席的上海科技大學&特拉華大學教授虞晶怡。
ICCV 2017 熱詞:新智元對ICCV 2017錄用論文標題做了詞頻統計,“深度學習”、GAN、識別、檢測依然是熱詞。
何愷明攜 Mask R-CNN 獲得 ICCV 2017最佳論文獎
作為與CVPR、ECCV齊名的計算機視覺三大頂級會議之一,ICCV的論文集代表了計算機視覺領域最新的發展方向和水平,也令ICCV 2017最佳論文尤其受到關注。
ICCV 2017的最佳論文獎(Marr prize)頒發給了Facebook AI實驗室(FAIR)何愷明等人的論文《Mask R-CNN》。
ICCV 2017最佳論文頒發給了Mask R-CNN
論文標題非常簡潔,就是“Mask R-CNN”:
摘要
我們提出一個概念上簡單,靈活,通用的物體實例分割框架(object instance segmentation)。我們的方法能有效檢測圖像中的對象,同時為每個實例生成高質量的分割掩膜(segmentation mask)。我們將該方法稱為 Mask R-CNN,是在 Faster R-CNN 上的擴展,即在用於邊界框識別的現有分支上添加一個並行的用於預測對象掩膜(object mask)的分支。Mask R-CNN 的訓練簡單,僅比 Faster R-CNN 多一點係統開銷,運行速度是 5 fps。此外,Mask R-CNN 很容易推廣到其他任務,例如可以用於在同一個框架中判斷人的姿勢。
我們在 COCO 競賽的3個任務上都得到最佳結果,包括實例分割,邊界框對象檢測,以及人物關鍵點檢測。沒有使用其他技巧,Mask R-CNN 在每個任務上都優於現有的單一模型,包括優於 COCO 2016 競賽的獲勝模型。我們希望這個簡單而有效的方法將成為一個可靠的基準,有助於未來的實例層麵識別的研究。
圖1:用於實例分割的 Mask R-CNN 框架
Mask R-CNN 在概念上十分簡單:Faster R-CNN 對每個候選物體有兩個輸出,即一個類標簽和一個邊界框偏移值。作者在 Faster R-CNN 上添加了第三個分支,即輸出物體掩膜(object mask)。因此,Mask R-CNN 是一種自然而且直觀的想法。但添加的 mask 輸出與類輸出和邊界框輸出不同,需要提取對象的更精細的空間布局。Mask R-CNN 的關鍵要素包括 pixel-to-pixel 對齊,這是 Fast/Faster R-CNN 主要缺失的一塊。
最佳學生論文獎:也出自FAIR,何愷明也有參與
ICCV 2017最佳學生論文頒發給了FAIR的《密集物體檢測Focal Loss》
這篇最佳學生論文也出自 FAIR 團隊之手,一作是 Tsung-Yi Lin。值得一提,何愷明也有參與,不愧為大神。
摘要
目前,最準確的目標檢測器(object detector)是基於經由 R-CNN 推廣的 two-stage 方法,在這種方法中,分類器被應用到一組稀疏的候選對象位置。相比之下,應用於規則密集的可能對象位置采樣時,one-stage detector 有潛力更快、更簡單,但到目前為止,one-stage detector 的準確度落後於 two-stage detector。在本文中,我們探討了出現這種情況的原因。
我們發現,在訓練 dense detector 的過程中遇到的極端 foreground-background 類別失衡是造成這種情況的最主要原因。我們提出通過改變標準交叉熵損失來解決這種類別失衡(class imbalance)問題,從而降低分配給分類清晰的樣本的損失的權重。我們提出一種新的損失函數:Focal Loss,將訓練集中在一組稀疏的困難樣本(hard example),從而避免大量簡單負樣本在訓練的過程中淹沒檢測器。為了評估該損失的有效性,我們設計並訓練了一個簡單的密集目標檢測器 RetinaNet。我們的研究結果顯示,在使用 Focal Loss 的訓練時,RetinaNet 能夠達到 one-stage detector 的檢測速度,同時在準確度上超過了當前所有 state-of-the-art 的 two-stage detector。
再來看看最佳論文提名獎,今年有3篇論文入選,分別是:
-
First Person Activity Forecasting with Online Inverse Reinforcement Learinng
作者:Nicholas Rhinehart; Kris M. Kitani
-
Open Set Domain Adaptation
作者:Pau Panareda Busto, Juergen Call
-
Globally-Optimal Inlier Set Maximasation for Simultaneous Camera Pose and Feature Correspondence
作者:Dylan Campbell, Lars Petersson, Laurent Kneip, Hongdong Li
ICCV 2017 還宣布了其他獎項,得主也都是CV界如雷貫耳的人物/名字。下麵分別做簡單介紹。
Azriel Rosenfeld 終身成就獎
該獎用於獎勵在長期職業生涯中為計算機視覺領域作出突出貢獻的傑出研究者,Azriel Rosenfeld 終身成就獎頒發給了MIT的Tomaso Poggio教授。
Tomaso Poggio是MIT大腦和認知科學係Eugene McDermott教授,生物和計算學習中心聯合主任,計算機科學和人工智能實驗室成員,是AAAI Founding Fellow。Poggio 教授的博士生和博士後中不乏當今AI翹楚,包括Mobileye的創始人兼CTO Amnon Shashua,以及DeepMind 的創始人兼CEO Demis Hassabis。
傑出研究員獎(Distinguished researcher award)
基於主要研究貢獻及影響激發其他研究,該獎項用於獎勵對計算機視覺發展作出重大貢獻的研究者。得主:Luc van Gool; Richard Szeliski
Luc van Gool是ETH Zurich大學教授,研究領域為計算機視覺和圖像處理。Richard Szeliski是Facebook的研究科學家、計算攝影組主任。
Mark Everingham 獎
該獎項用於獎勵為計算機視覺社區作出無私而重要貢獻的研究員,包括個人和團隊。今年的Everingham prize頒發給了Caffe團隊和ICVSS組織者。
Caffe這個深度學習框架相信大家都很熟悉了,它的作者賈揚清現任Facebook研究科學家,曾在穀歌大腦工作,也是TensorFlow的作者之一。在獲得這個“無私貢獻獎”以後,賈揚清發布朋友圈,表示獎金已經捐獻給伯克利工程院。在這裏,我們也向Caffe 團隊表示祝賀與感謝——賈揚清、Evan Shelhamer、Jeff Donahue、Sergey Karayev、Jonathan Long、Ross Girshick、Sergio Guadarrama、Trevor Darrell。
ICVSS全稱International Computer Vision Summer School(國際計算機視覺暑期研討會),是一年一度的計算機領域的重要會議。ICVSS組織者Sebastiano Battiato、Roberto Cipolla、Giovanni Farinella
Helmholtz prize 經典論文獎
本獎項認可對計算機視覺研究有重大意義、十年前的的論文,以表彰在計算機視覺領域作出的基礎貢獻。
- I Laptev and T Lindeberg, Space-time interest points
- A Efros, A Berg, G Mori, J Malik, Recognizing action at a distance
- J Sivic, A Zisserman, Video Google: A text retrieval approach to object matching in videos
- M Brown, D Lowe, Recognising panoramas
- J Sivic, B Russell, A Efros, A Zisserman, W Freeman, Discovering objects and their location in images
- K Grauman, T Darrell, The pyramid match kernel: Discriminative classification with sets of image features
- M Blank, L Gorelick, E Shechtman, M Irani, R Basri, Actions as space-time shapes
按照慣例,除主要會議外,今年的ICCV還有其他一係列活動,包括44個workshop(比之前多了63%)、9個tutorial和產業展覽。
工業界的參與度也很高。超過60家公司,包括創業公司和大公司,都在本屆ICCV上展示他們的最新技術。組委會比較自豪的一點,今年來自企業的讚助是上屆的3倍。
根據目前已經公布的結果,除了上文提到投稿數量大於20的機構,Facebook 有 15篇論文入選 ICCV 2017。騰訊優圖團隊也表現不俗,共有12篇論文入選,其中3篇被選做口頭報告(Oral)——本屆ICCV,隻有2.09%的論文以oral的形式發表。
此次騰訊優圖入選的論文提出了諸多亮點:全球首個AI卸妝效果的算法;現今最準確的單張圖像深度估計算法;完美解決多幀信息融合困難的多幀超分辨率視頻結果;史無前例的手機雙攝圖像匹配和分割研究成果。
騰訊優圖與香港中文大學合作論文,美化人像的盲複原
在即將於11月8日舉辦的AI World 2017世界人工智能大會上,2017年5月加入騰訊優圖的賈佳亞博士將發表題為《計算機視覺AI新認識》的演講,他會把先進的計算機視覺研究成果做一個重新劃分和歸類,展示給大家一個有很多具體內容的視覺研究畫卷。
賈佳亞介紹說,“一直以來,我們都在創新;所以我也會給大家看到新的有趣的應用,同時撥開雲遮霧繞,還原視覺AI的技術真實水平。最後我也會和大家介紹騰訊優圖實驗室視覺AI的發展。”
原文發布時間為:2017-10-25
本文作者:聞菲,常佩琦,劉小芹
本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號
原文鏈接:【ICCV 2017華人雄起】何愷明包攬兩項最佳論文,40%投稿來自中國
最後更新:2017-10-25 10:34:17