258
技術社區[雲棲]
完整複現何愷明ICCV獲獎論文結果並開源 !(附論文&開源代碼)
ICCV 作為計算機視覺的頂級會議,2017年共收到2143篇論文投稿,比上一屆ICCV2015的1698篇增加了26.2%。共621篇被選為大會論文,錄用比例28.9%;poster、spotlight、oral 比例分別為24.61%、2.61%和2.09%。
組委會根據作者署名統計了不同大學的研究數目,清華大學超過CMU、MIT、ICL、斯坦福以及穀歌名列第一,上海交通大學、北京航空航天大學也在前10當中。
而此次大會最大的新聞一定是何愷明大神在 ICCV 上拿下了雙best paper!繼兩次榮獲 CVPR 最佳論文獎之後,何愷明參與的兩篇最新論文又分別摘下 ICCV 2017 的最佳論文獎(Best Paper Award)和最佳學生論文(Best Student Paper Award)兩項大獎。
這兩篇獲獎論文分別是今年 4 月發布的**《Mask R-CNN》**以及今年 8 月發布的**《Focal Loss for Dense Object Detection》**,兩者都是今年發布,而且相隔僅僅 4 個月。要知道 ICCV 是計算機視覺領域頂級會議之一,且兩年舉辦一次,而何愷明作為兩篇論文的第一作者和第四作者,足以證明他的實力。
兩篇獲獎論文簡介:
論文簡介:我們提出了一個簡單、靈活和通用的對象實例分割框架。我們的方法能有效檢測圖像中的對象,同時為每個實例生成高質量的 segmentation mask。這種被稱為 Mask R-CNN 的方法通過添加用於預測 object mask 的分支來擴展 Faster R-CNN,該分支與用於邊界框識別的現有分支並行。Mask R-CNN 訓練簡單,隻需在以 5fps 運行的 Faster R-CNN 之上增加一個較小的 overhead。此外,Mask R-CNN 很容易推廣到其他任務,例如它可以允許同一個框架中進行姿態估計。我們在 COCO 係列挑戰的三個軌道任務中均取得了最佳成果,包括實例分割、邊界對象檢測和人關鍵點檢測。沒有任何 tricks,Mask R-CNN 的表現優於所有現有的單一模型取得的成績,包括 COCO 2016 挑戰賽的冠軍。
論文地址:
https://arxiv.org/abs/1703.06870
論文簡介:目前準確度最高的目標檢測器采用的是一種常在 R-CNN 中使用的 two-stage 方法,這種方法將分類器應用於一個由候選目標位置組成的稀疏樣本集。相反,one-stage 檢測器則應用於一個由可能目標位置組成的規則密集樣本集,而且更快更簡單,但是準確度卻落後於 two-stage 檢測器。在本文中,我們探討了造成這種現象的原因。
我們發現,在訓練密集目標檢測器的過程中出現的嚴重的 foreground-background 類別失衡,是造成這種現象的主要成因。我們解決這種類別失衡(class imbalance )的方案是,重塑標準交叉熵損失,使其減少分類清晰的樣本的損失的權重。Focal Loss 將訓練集中在一個稀疏的困難樣本集上,並防止大量簡單負樣本在訓練的過程中淹沒檢測器。為了評估該損失的有效性,我們設計並訓練了一個簡單的密集目標檢測器—RetinaNet。試驗結果證明,當使用 Focal Loss訓練時,RetinaNet 不僅能趕上 one-stage 檢測器的檢測速度,而且還在準確度上超越了當前所有最先進的 two-stage 檢測器。
我們提出了一種新的損失函數 Focal Loss(焦點損失),這個損失函數在標準的交叉熵標準上添加了一個因子 (1- pt) γ 。設定 γ > 0 可以減小分類清晰的樣本的相對損失(pt > .5),使模型更加集中於困難的錯誤分類的樣本。試驗證明,在存在大量簡單背景樣本(background example)的情況下,我們提出的 Focal Loss 函數可以訓練出準確度很高的密集對象檢測器。
論文地址
https://arxiv.org/abs/1708.02002
大家紛紛表達對愷明大神的崇拜以及對最優秀的學術研究人員表達敬意。與此同時,很多從業者更關心的問題是:什麼時候能看到開源代碼?
一家AI科技企業——圖森未來表示:致敬大神最好的方式,或許就是完整複現論文結果,然後再開源了。他們**完整複現了何愷明大神的論文結果(Mask R-CNN 和 Feature Pyramid Network),並將對應代碼進行了開源!**這也是第一份能夠完整複現何愷明大神論文結果的開源代碼。
原文發布時間為:2017-10-26
本文來自雲棲社區合作夥伴“數據派THU”,了解相關信息可以關注“數據派THU”微信公眾號
最後更新:2017-10-27 14:04:27