【視覺目標跟蹤最高峰】VOT Challenge 2017 亞軍北郵團隊技術分享(附代碼)
視覺跟蹤領域國際頂級賽事 Visual-Object-Tracking Challenge (VOT) 2017年結果出爐,結合傳統濾波及深度學習的方案取得最佳成績。本文是第二名北京郵電大學代表團隊的技術分享。他們基於濾波的框架,拋棄傳統特征,隻使用CNN特征,減少了特征冗餘,緩解了模型過擬合,使追蹤器在速度和精度上都有不小的提高。代碼分享鏈接:https://github.com/he010103/CFWCR.git
隨著深度學習在計算機視覺方麵大放異彩,近幾年物體追蹤也得到了飛速的發展。物體追蹤解決的問題是在一段時間內對於同一個物體在複雜的背景下(如遮擋,光照,物體旋轉等),進行持續高速的跟蹤。因此,物體追蹤是監控,安防,自動駕駛,無人機,智能家居等應用中必須解決的關鍵課題。
作為視覺跟蹤領域的最高峰,Visual-Object-Tracking Challenge (VOT) 是國際目標跟蹤領域最權威的測評平台,由伯明翰大學、盧布爾雅那大學、布拉格捷克技術大學、奧地利科技學院聯合創辦,旨在評測在複雜場景下單目標短時跟蹤的算法性能。由於每年的評測序列都會更新,且標注的精確度一年一年提高,VOT競賽也被視為視覺跟蹤領域最難的競賽,遠遠超過了其他數據集。因此,每年最好的追蹤算法都會在上麵一展拳腳,在激烈的比拚中擦出靈感的火花。
今年的比賽 VOT 2017,作為 ICCV 2017的一個workshop,吸引了來自全世界的38個隊伍參加(CMU,中科院,法國科學院,香港理工,華中科技大學,國防科大,美國海軍研究院,牛津大學,中國科技大學,浙江大學等),提交了38個新的算法參加了比賽,加上組委會自行提交的13個算法,總共對比分析了51個跟蹤器在VOT2017 數據集上的表現。
在公開的38個隊伍中,大連理工大學的盧湖川教授隊伍奪得第一名。由北京郵電大學董遠教授指導,北京飛搜科技&北京郵電大學代表隊何智群、樊應若、莊駿飛、白洪亮提交的結果(CFWCR)獲得VOT 2017競賽公開的60個評測序列中第二名。
VOT 2017與VOT 2016相比,VOT 2016中某些序列已經被多數tracker準確跟蹤,所以在VOT 2017中,將VOT 2016的10個評測效果差圖像序列替換如圖1,並且保證總體的序列屬性分布不變。與此同時,VOT2017相對於VOT2016對所有序列的還對所有序列的ground truth進行了重新標定,精確到像素級別,然後重新擬合矩形框。
VOT2017使用EAO(Expected Average Overlap)、Accuracy、Robustness三個主要指標對跟蹤結果進行評估,
- 平均重疊期望(EAO)是對每個跟蹤器在一個短時圖像序列上的非重置重疊的期望值,是VOT評估跟蹤算法精度的最重要指標。
- 準確率(Accuracy)是指跟蹤器在單個測試序列下的平均重疊率(兩矩形框的相交部分麵積除以兩矩形框的相並部分的麵積)。
- 魯棒性(Robustness)是指單個測試序列下的跟蹤器失敗次數,當重疊率為0時即可判定為失敗。
今年的VOT結果如下:
圖2 VOT2017結果圖
VOT 2017結果顯示,目前跟蹤算法的主流方法主要分為三種,一是傳統的相關濾波方法,二是基於卷積神經網絡方法,三是深度卷積特征和傳統的協同濾波相結合的方法。
其中,使用深度卷積特征和協同濾波結合的方法效果最好。例如今年VOT第一名,大連理工大學盧老師的LSART,他們提出的追蹤器以一種新的方式結合了CNN和相關濾波,通過設計算法讓CNN專注於特定區域的回歸,相關濾波專注於全局的回歸,在最後對回歸的結果進行組合,以互補的方式得到物體的精確定位。
今年VOT的51個tracker中,深度特征和相關濾波結合的方法共9種,采用如VGG網絡提取特征再輸入到相關濾波框架內,以非端到端線上更新濾波參數,達到準確追蹤的效果。這9種深度特征和相關濾波結合的方法在VOT2017種表現均較為出色,包攬了前四名。
北京飛搜科技&北京郵電大學代表隊提交的結果(CFWCR)獲得VOT 2017競賽公開的60個評測序列中第二名。
我們的方法基於業界流行的相關濾波的框架。我們使用了單CNN特征的多尺度追蹤方案。現有很多追蹤器融合了CNN特征和傳統的機器學習特征,如hog特征,CN顏色特征等。在我們的實驗中,我們發現CNN的淺層特征具有物體輪廓的信息,高層的深度特征具有物體的語義信息,將CNN的淺層和高層特征進行融合,能使追蹤器具有很好的性能。
CNN的特征和傳統特征的融合會使得特征的冗餘太多,容易導致參數更新的時候模型過擬合,解決過擬合的一種方法是用PCA對特征進行降維。但是,過於複雜的特征組合方式不太利於超參數的精調,我們摒棄了傳統的特征,隻使用了CNN的特征。這一做法,減少了我們的特征冗餘,模型過擬合的情況得到很大的緩解,使得我們的追蹤器無論是在速度上還是精度上都有了不小的提高。
圖3 CFWCR追蹤效果對比圖
使用相關濾波框架的一大困難是具有很多的超參數,這和目前主流的端到端深度學習訓練框架有很大的不同。我們發現用PCA對特征進行壓縮,能使得追蹤器在追蹤速度上有很大的提高,但是性能會略有下降。因此,我們在評測上沒有使用PCA,而在實用的追蹤係統中用PCA能更好地均衡速度和精度。
此外,我們發現,在評測中,增加候選尺度的數量能使我們的追蹤器更好地適應物體在時間序列中形狀的變化。最後,我們對CNN的輪廓信息和語義信息進行了加權融合,以最優的方法對特征進行組合。
下麵是我們的追蹤器在不同的序列長度下的表現曲線。可以看到,我們的算法在短視頻序列的表現明顯優於其他主流的算法。
圖4 CFWCR重疊率性能圖
視覺跟蹤未來展望:充分利用CNN
連續兩年的VOT比賽中,基於相關濾波和CNN結合的追蹤器表現突出,在性能指標上遙遙領先於其他算法。然而,非端到端的訓練框架擁有很多的超參數,線上更新的方式也使得在實際算法部署的過程中,目前性能最優的一些追蹤器難以滿足實時性的要求。
視覺追蹤方向和物體檢測、物體分割方向不同的一點,在於CNN並沒有完全發揮它的強大作用。未來的視覺追蹤方向應該會更加關注實時性和訓練的便捷性,端到端訓練的追蹤器會更多湧現,讓CNN能夠完全在視覺追蹤領域發揮功效。我們也將繼續在視覺跟蹤領域深入研究,希望能給學術界和工業界做一些小小的貢獻!
代碼分享鏈接:https://github.com/he010103/CFWCR.git
參考資料- [1]https://www.votchallenge.net
- [2]https://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/Kristan_The_Visual_Object_ICCV_2017_paper.pdf
- [3]https://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/He_Correlation_Filters_With_ICCV_2017_paper.pdf
最後更新:2017-11-06 10:03:52