阿裏巴巴iDST:計算機視覺和機器學習在消費級視頻中的應用
在剛剛圓滿落幕的杭州雲棲大會上,阿裏巴巴董事局主席馬雲宣布成立達摩院,並將在3年內投資1000億人民幣用於新技術研發。而iDST就是達摩院中的一員,她致力於打造涵蓋圖像視頻、語音交互、自然語言理解、智能決策等人工智能核心技術,肩負著在人工智能領域樹立阿裏巴巴集團世界領先的技術品牌使命。
那iDST的人工智能技術與阿裏視頻雲強強聯合,將碰撞出怎樣的科技火花呢?
本文邀請iDST高級算法專家劉揚,將從視頻雲和人工智能技術結合的由來、消費級視頻的特點、iDST視頻AI技術進展、iDST的VENUS視頻分析平台、視頻雲+人工智能未來展望五個部分,來介紹iDST在視頻領域的技術和在視頻雲上的工作成果。
視頻雲和人工智能結合的由來
視頻AI是由幾方麵因素組成。最底層是雲計算平台,它包括存儲、海量視頻的分布式計算和流媒體處理能力,這是基礎。中間層是人工智能技術,包含了不同的人工智能處理模塊,有機器學習、模式識別、計算機視覺等,來為雲端存儲的視頻提供多種分析和理解服務。上層就是數據,數據來源於兩個方麵,一方麵是媒體數據,也就是實際要處理的媒資(介質),比如廣播電視、視頻網站、短視頻、視頻直播等,另一方麵是海量用戶數據,比如直播主播、視頻網站用戶、短視頻達人、新聞從業者等。
這上中下三層整個支撐了視頻AI的整個係統,每一層都不可或缺。這裏麵數據是最為重要的一層,因為所有雲計算和視頻AI處理的能力,阿裏雲都可以提供,而在垂直細分市場中,真正能構建行業壁壘和競爭優勢的,就是數據。
在視頻領域,數據就是視頻本身,那消費級視頻擁有什麼特點呢?
消費級視頻的生命周期及演變
消費級視頻區別於監控視頻、醫療視頻、航天視頻、測繪視頻等專業領域視頻,它是用來娛樂大眾和被觀眾消費的視頻,我們日常生活中常見的娛樂綜藝、影視劇、直播、短視頻都屬於消費級視頻。它的整個生命周期分為四個階段,第一階段是生成,視頻拍攝和錄製,第二階段是編輯,用戶或者平台方進行視頻處理和製作,第三階段是視頻通過不同的方式和渠道分發到用戶手中,第四階段是用戶對視頻進行消費。
隨著網絡的發展和短視頻的興起,視頻的再次編輯->再次分發->再次消費已經成為了流行趨勢。比如經常在短視頻平台上,看到了熱門影視劇中的片段,它經過編輯處理可以在短視頻平台上再次分發。
隨著時代的發展,消費級視頻的生命周期也發生了很大變化。
生產階段,視頻從以往的專業設備拍攝,變成了如今的手機終端隨時隨地的采集;
編輯階段,以往視頻編輯是由專業人員進行剪輯,而如今視頻編輯的概念演變成了美顏、濾鏡等特效,降低了門檻,用戶可以自由編輯;
分發階段,從最初的電視節目逐漸演變成了視頻網站的定向搜索觀看,到如今十分普遍的APP feed流模式和個性化推薦;
體驗階段,從以往的純粹看,到現在的與視頻交互(包括電商、互動遊戲、廣告等等)。
由此可見,在視頻的不同生命周期內,人工智能技術的應用也有所不同。接下來我們一起看看阿裏巴巴iDST在視頻領域研究的一些進展。
視頻人工智能技術三大領域:視頻理解、視頻搜索、視頻編輯
這三點是人工智能在視頻雲方麵應用最廣泛的三個領域,我們將從這三個方麵詳細闡述。
第一,視頻內容理解技術
我們先了解下視頻的內容怎麼定義。
通常情況下我們認為,視頻是圖像序列。但是視頻不僅僅隻有視覺畫麵,視頻還包含聲音。聲音又分為語音和音頻兩種,語音我們可以通過技術轉換成文本,而音頻是能表達出特定場景的寓意。另外視頻還有運動,物體的運動信息,它能夠對於視頻中的行為類的內容有強有力的表現形式。所以我們認為,視頻內容分析實際上就是對視頻中多模態信息分析的過程,理解視頻,其實就是理解這些多模態信息。
我們可以把視頻內容簡單地分為兩類:一類是具有具象意義的內容,例如人、物體、場景、事件;另一類是抽象意義的內容:主題、情感等。
對於視頻內容的理解,我們會將視頻表現成有物理意義的標簽。這個標簽可以是不同粒度的,比如video-level的,整個視頻的類目是新聞、體育,還是財經。再或者clip-level比如視頻中的一個片段,是武打、親吻還是賽車。甚至可以把標簽定位到視頻的某一幀上,即frame-level的。
圖中綠色文字就是為視頻打標簽的技術手段,包括視頻分類、語音識別、人物識別、OCR、物體識別、場景識別。
那在視頻內容理解這一領域,人工智能+視頻都做了什麼?
- 視頻分類
在ACM MM‘17大規模視頻分類競賽中,阿裏巴巴iDST團隊平均準確率(mAP)達到87.41%,獲得冠軍。而在競賽中,借助於阿裏雲ODPS,提取視頻關鍵特征,我們可以實現大規模的視頻分析處理能力,日處理規模為百萬視頻。
- 視頻多模態分析
下圖包括OCR,它可以對視頻中出現的文字進行識別;ASR,能夠對視頻的語音轉文本,可以為視頻實時加字幕。
- 視頻物體識別與定位
左邊那幅圖是物體識別,對應到技術上就是圖像分類,識別出視頻幀中包括什麼物體,場景等;中間是雲上的物體檢測,右圖是端上的物體檢測,不隻能識別視頻中的物體是什麼,還能定位到物體在哪裏。目前,已經支持1000+物體的檢測和5000+物體的識別,已經被廣泛應用在雲相冊和優酷土豆的視頻打標上。
- 目標跟蹤
在物體檢測後,就是目標跟蹤的過程。視頻本身是有時域信息的,通過目標跟蹤,我們可以準確地知道物體的生命周期,可以精確分割出物體的時域片段。比如在淘寶商家上傳視頻的過程中,會自動檢測視頻中的商品並跟蹤,在前段展示的時候,用戶感興趣的話,可以點擊錨點,直接進入商品頁。
- 事件、行為、動作、場景識別
其實在iDST的視頻分析係統中,這四塊技術的整體框架是相同的。對於任意一段長視頻,我們都可以精確到視頻中的每一分每一秒,給其中的事件或動作打上標簽,並且對輿情進行分析。
- 視頻同款商品檢索
iDST從15年開始做視頻電商研究。之前如果在視頻中搜同款,我們需要在視頻中進行采幀,采幀之後對每一幀圖像中檢測到的物體進行檢索。在連續的鏡頭中,同一件物體,由於演員動作、遮擋、形變等客觀因素幹擾,相同物體的搜索結果相差很大。為了提高搜索準確度,我們對同一件物體進行跟蹤,通過LSTM在時域對物體序列進行encoding,來進行檢索。
- 個性化商品投放
這個能力已經落地在天貓魔盒第一版邊看邊淘項目中,它可以打通觀看視頻的用戶、視頻本身內容、淘寶上的商品之間的關係,它就會在最合適的視頻片段裏投放用戶最感興趣的商品。
第二,視頻搜索技術
我們把視頻搜索技術分成三塊,一塊是音視頻指紋,主要用於相同視頻檢索;另一塊是視頻相似性,找的是相似的視頻;還有一塊是跨媒體檢索,主要用於多類型query視頻檢索。
視頻指紋技術的應用場景其實比較多,本身就是找同源視頻。什麼是同源視頻?我們在視頻網站上看到的,有的視頻加了片頭、片尾、邊框、翻轉、碼率和格式的轉換等,這些都是同源視頻。目前,同源視頻在檢索速度可以達到40:1。視頻相似性,通過視頻向量的特征來度量不同視頻之間的相似性,這個功能主要被應用在視頻搜索和視頻推薦中。跨媒體視頻搜索,通過檢索文本、語音、圖像和視頻片段等標簽,在統一特征空間裏找到對應的視頻。
第三,視頻編輯技術
從技術角度來說,視頻編輯就是結構化分析。通過視頻幀和幀之間的相似性和其他方法對視頻進行不同粒度的分解。最細粒度就是幀,再往上一層是鏡頭,進一步就是場景。
在這個視頻結構化分析的基礎上,我們會對視頻進行編輯,一些編輯應用可以體現在幾個方麵:封麵圖,打破傳統的視頻網站和APP用海報做封麵圖的模式,利用人工智能去選取最好的一張封麵圖,吸引用戶的點擊,這點已經在視頻雲客戶、淘係、阿裏大文娛產品中應用;GIF動圖,對視頻中的幀做成GIF動圖,便於編輯快速瀏覽視頻內容,對視頻進行打標管理,提高運營效率;Highlight和摘要,對視頻中的關鍵信息、吸引人的片段進行自動提取,比如三分鍾看大片或者動態鏡頭展示;拆條,它的應用包括新聞拆條,新聞聯播的視頻拆成獨立事件,另外一種是UGC或者娛樂視頻,拆成片段,為短視頻APP提供一些資源,進行再分發;特效就是對人物進行美顏、濾鏡,包括專場處理等等。
VENUS視頻服務平台
VENUS是由阿裏巴巴iDST和阿裏視頻雲一同打造的視頻服務平台,這是一個智能分析與計算平台,通過國際權威的冠軍技術,打造以視頻為入口的平台服務。
視頻內容理解服務
產品功能分為:視頻分類、語音轉字幕、人物識別、文本識別,泛標簽提取,應用場景包括媒資管理,視頻分發,廣告投放,視頻電商等。依托於iDST強大的科研實力,視頻內容理解服務具備很多核心優勢,其中包括剛剛前文講到的多模態分析,還有完善的標簽體係和穩定成熟的應用。因為阿裏大文娛和淘係的強大的視頻生態環境,資源非常豐富,類目體係完備,所以服務的場景可以涵蓋電商、娛樂、短視頻、長視頻版權劇等等。同時,我們目前視頻內容理解服務以及廣泛應用在優酷、土豆、UC、閑魚和手淘視頻內容上,所以在集團內部經過了大量的、長期的驗證之後,對外推出的服務一定是非常穩定成熟的。
視頻指紋服務
這個服務目前是相對來說比較成熟的服務,業務場景非常明確,包括用於視頻去重業務場景,版權保護和原創認證(防止侵權,鼓勵PGC原創性,分成係統),安全審核(通過黑名單庫來做視頻安全審核)。目前視頻指紋技術的優勢在於能夠多場景適配(格式、分辨率),對不同分辨率的同源視頻具備很好的識別能力,並可以根據業務方需求進行秒級的實時擴展,另外,因為在特征選取上做了很多的深入研究,視頻指紋的精確度也非常高。
視頻智能編輯服務
涵蓋了智能封麵圖、視頻摘要、視頻Highlight、GIF、視頻切換化等多項產品功能,等你上傳了一個視頻後,你的所有編輯需求都可以一次性搞定。這裏智能封麵圖也支持根據用戶信息的實時反饋和行為日誌,實現個性化的首圖投放,也可以根據類目,進行首圖自適應選取,加強用戶體驗。另外,智能首圖技術不僅僅是基於視覺的處理,本身的模型是通過海量的用戶行為日誌來做的,我們會分析和提取用戶點擊率高的視頻首圖的共性,用這些信息指導模型的學習,所以,模型基於大數據生成的,可以提高用戶的觀看時長,減少搜索複雜度。
視頻AI技術展望
阿裏巴巴iDST高級算法技術專家劉揚認為:視頻中的電商和廣告是一個方向,用戶最終是想實現流量變現。所以,未來我們需要在不打擾用戶體驗的情況下,進行視頻電商和廣告的嚐試。另外,在未來,視頻的流量分發也十分重要,平台方需要通過多種維度分析把最合適的視頻推給最需要的人,視頻AI技術在裏麵可以起到很大的作用,這是我們的研究方向。最後,視頻編輯中版權素材庫認證、版權追訴、版權交易的業務,以及視頻交互編輯的體驗,都是有非常大的前景的。人工智能技術在視頻AI領域能夠發揮的最大作用就是極大提高工作效率,節省人工成本和計算成本。
我們都知道視頻是極耗資源的,視頻平台是否能做到海量的視頻分析,在最短的實際內高效進行視頻處理,並且低成本的穩定運維,這三點極其重要。利用阿裏巴巴iDST和阿裏雲視頻雲能力強大的技術實力,VENUS視頻服務平台可以輕鬆做到以上幾點,幫助客戶更好的進行視頻內容理解和分析,在消費級視頻中更全麵的應用計算機視覺和機器學習技術,達到高效工作的目的。
最後更新:2017-10-23 22:34:01