652
技術社區[雲棲]
李飛飛力讚論文:描述視頻密集事件新模型 !(附論文)
前幾日李飛飛發了一條推文:
推文內容:
大意為:我的學生最近的論文被TechCrunch網站選為“計算機視覺最前沿的十篇論文”之一,我真是為它們感到驕傲。繼Imagenet後,計算機視覺仍然在不斷突破我們的想象力。
既然是大神李飛飛的得意門生,必是值得一讀的大作。其實這篇論文早在今年5月就已公布,不少知乎網友也紛紛給出了自己的解讀。在這篇文章中,第一部分為論文的摘要及引言翻譯,第二部分為解讀(不代表本文觀點),希望對你有所幫助。
若需參看原文,請查閱文末鏈接。
大多數視頻都包含著大量事件。舉例來說,在一段鋼琴演奏視頻中,可能不僅僅包含鋼琴演奏者,還可能包含著跳舞的人,或者鼓掌的觀眾。本論文提出了密集事件描述任務——檢測和描述視頻中的事件。作者提出了一個新模型,它可以識別出視頻某一通道中的所有事件,同時還能用自然語言描述檢測出的事件。
我們的模型介紹了一個與已有方法不同的描述模塊,它可以捕捉到發生時間為幾分鍾到幾十分鍾的事件。為了捕捉視頻中不同事件間的關係,該模型引入了一種新的描述模塊(captioning module),該模塊可以結合從過去和未來事件中得出的上下文信息,用它們來描述所有事件。作者還提出了ActivityNet Captions,這是一個用於密集事件描述任務的大型基準測試數據集。這個數據集包含了2萬個視頻(共長達849小時)以及10萬條帶有開始和結束時間的描述信息。最後,作者報告了該模型在密集事件描述、視頻檢索和定位任務中的性能。
圖1:密集事件描述任務要求模型檢測和使用自然語言描述視頻中發生的每個事件。這些事件有各自的開始時間和結束時間,因此事件可能同時發生,在時間上發生重疊。
利用大型的活動數據集,模型可以將視頻中的事件分類為一係列互不關聯的行為類別。例如,在圖1中,此類模型會輸出“彈鋼琴”或“跳舞”這樣的標簽。盡管這些方法取了很好的結果,但是它們有一個重要的局限:細節。
為了解決現有行為檢測模型的細節缺失問題,論文作者通過試驗探討了如何使用語句描述解釋視頻含義。例如,在圖1中,模型可能會集中注意在人群前彈奏鋼琴的老人。雖然模型可以通過描述告訴我們是誰在談鋼琴以及現場有一群觀眾在觀看表演,但是它未能識別並描述出視頻中的所有其他事件。例如,在視頻中的某一點,一位女士開始跟著演奏者一起唱起歌來,之後一名男士開始伴著音樂跳起舞來。為了讓模型能識別並以自然語言描述視頻中的所有事件,作者提出了密集事件描述任務,這種任務要求模型根據視頻中發生的多個事件生成一係列描述,並在視頻中對這些事件進行時間上的定位。
密集事件描述任務類似於密集圖像描述任務。不同之處在於:前者要求模型對視頻中的事件進行描述和時間上的定位,而後者則要求模型對圖像區塊(regions)進行描述和空間上的定位;處理這兩種任務時需要解決的問題不同。視頻中的事件可能發生於多個時域內,不同的事件可能會重疊在一起。
在視頻中,鋼琴演奏這個事件可能從頭到尾都在發生,但是觀眾鼓掌這個事件隻發生了十幾秒。為了捕捉到所有事件,我們需要對長視頻序列和短視頻序列進行編碼,來對事件進行描述。以往的方法使用均值池化法或循環神經網絡(RNN)對整個視頻序列進行編碼,從而繞過了這個問題。在處理短視頻時此類方法很好用,但是如果對長達幾分鍾或幾十分鍾的長視頻序列進行編碼,就會出現梯度消失的問題,從而導致無法成功地訓練模型。為了克服這個局限,作者將 action proposals生成上的近期研究成果應用到了多時域事件檢測任務中。另外,作者引入的模塊在前向通道中處理每個視頻,這樣模型就可以在事件發生的同時對其進行檢測。
該論文還發現:視頻中的各事件之間往往存在聯係。在圖1中,觀眾鼓掌的原因是因為演奏者表演了鋼琴彈奏。因此。模型必須能夠利用從前後事件中得出的上下文信息,來捕捉每個時間。最近發表的一份論文試圖通過多個語句來描述視頻中的事件;但是論文中使用的是“烹飪”教學視頻,視頻中的事件和物體之間存在很高的關聯性,而且事件有一定的發生順序。
作者證明了他們的模型並不能適用於“開放”時域(“open” domain)視頻,這此類視頻中,事件的發生是由行為主導的,而且不同事件可能會重疊在一起。作者提出了一種描述模塊,該模塊可以使用action proposal模塊中所有事件的上下文信息,為每個事件生成描述語句。另外,作者還給出了一個描述模塊(captioning module)的變體,這個變體可以隻根據前麵發生的事件,對流視頻(streaming video)中的事件生成描述。本論文中的模型參考前麵和後麵發生的事件,證明了使用上下文信息的重要性。
為了評估模型在密集事件描述任務中的性能以及基準的提高程度,我們引入了ActivityNet Captions數據集。ActivityNet Captions包含20000個采集自ActivityNet的視頻,每個視頻包含一係列時序定位的描述語句。為了驗證模型對長視頻序列的檢測,數據集中包含有長達10分鍾的視頻,每個視頻平均標記有3.65個語句。這些語句描述的是可能同時發生並導致視頻片段重疊的事件。雖然本論文使用的是關於人類活動的視頻,但是描述可能會涉及非人為事件,例如:兩個小時後,材料一塊美味的蛋糕。作者使用眾籌(crowdsourcing)的方式收集描述,在這個過程中發現時序事件視頻片段之間存在高度的一致性。這一發現驗證了一些研究的結論:大腦活動會被本能地轉化為在語義上有意義的事件。
借助ActivityNet Captions,我們率先在密集事件描述任務中得出結果。我們結合使用了proposal模塊和在線描述模塊,證明了我們可以檢測和描述長視頻或流視頻中的事件。而且,我們證明了我們能夠檢測出長視頻序列和短視頻序列中的事件。另外,我們還證明了使用從其他事件中得出的上下文信息可以提升模型在密集事件描述任務中的性能。最後,我們證明了ActivityNet Captions可以被用於研究視頻檢索和事件定位。
論文地址:
https://openaccess.thecvf.com/content_ICCV_2017/papers/Krishna_Dense-Captioning_Events_in_ICCV_2017_paper.pdf
關於這篇論文,營長就不做過多解析了,以下是知乎上兩位同學的分析,供參考。
原文地址:
https://www.zhihu.com/question/59639334/answer/167555411
知乎答主:米特蘭
整個框架主要分成兩部分:proposal module和captioning module。
模型如下:
1.給定視頻,生成特征序列。實驗中以16幀為單位,輸入C3D提取特征。
2.proposal module。proposal module是在DAPs的基礎上做了一點修改,即在每一個time step輸出K個proposals。采用LSTM結構,輸入上述C3D特征序列,用不同的strides提取特征序列,strides={1,2,4,8}。生成的proposal在時間上會有重疊。每檢測出一個event,就將當前的隱藏層狀態作為視頻描述。
3.captioning module。利用相鄰事件的context來生成event caption。采用LSTM結構。
將所有的事件相對於當前事件分成兩個桶:past events和future events。並發事件則依據結束時間分成past events和future events。計算公式如原文,不在此列出。
4.損失函數由兩部分組成:
都采用cross-entropy。
5.實驗:baseline:LSTM-YT、S2VT、H-RNN、full model和online model。其中full model是本文中模型,online model是在full model中隻采用past events,而不采用future events。
6.評估:分別對proposal module和captioning module進行評估。
proposal model:recall,依賴兩個條件:
- the number of proposals and
- the IoU with ground truth events。同時也測試不同的strides在event localization中的效果。
captioning module:采用video retrieval。即給定視頻不同部分的描述,在測試集中檢測出正確的視頻。
本文模型解決的問題:
- 視頻長短不一致。
- 事件之間的相互聯係。
我認為本文的主要貢獻有以下幾點:
- 提出proposals module+captioning module,隻處理一次視頻就能同時生成short和long event。
- 利用neighboring events的context生成current event caption。
- 提出ActivityNet Captioning數據集
知乎答主:楊科
framework大致是:action segmentation proposal + video caption,首先做行為片段(或者說segmentation of interest吧)proposal,然後在proposal上做video caption;其中action segmentation proposal用的是eccv16的DAPs【1】。
【1】2016-eccv-DAPs Deep Action Proposals for Action Understanding
關於video caption,諸位可以去看知友@林天威最近的專欄文章(天威的專欄幹貨滿滿,做video相關的研究可以關注一下)
Video Analysis 相關領域介紹之Video Captioning(視頻to文字描述)
https://zhuanlan.zhihu.com/p/26730181
我感覺最大的貢獻是提出了這個dense video caption 的數據集(或者說task)吧,算法隻是做一個baseline而已,(數據集在ActivityNet上加上了caption 的標注,ActivityNet是當前最火的行為識別/檢測challenge的視頻數據集)。
原文發布時間為:2017-11-11
本文作者:Ranjay Krishna, Kenji Hata,Frederic Ren, Li Fei-Fei, Juan Carlos
本文來自雲棲社區合作夥伴“數據派THU”,了解相關信息可以關注“數據派THU”微信公眾號
最後更新:2017-11-13 15:04:14