閱讀383 返回首頁    go 阿裏雲 go 技術社區[雲棲]


機器視覺領域的深度學習方法分析

2016年,由穀歌DeepMind開發的AlphaGo圍棋程序依靠深度學習和強化學習的強大能力,在圍棋人機大戰中以3:1戰勝了韓國頂級棋手李世乭。伴隨著電子信息技術的高速發展以及各類攝像頭的廣泛應用,全球圖像視頻數據爆炸式增長,人類社會正在進入視覺信息的大數據時代。目前大多數機器視覺處理係統可以很好地采集、傳輸和存儲圖像視頻,但是缺乏對其圖像視頻內容高效準確的分析、識別和挖掘方法。

深度學習方法(Deeplearning)作為傳統神經網絡的拓展,近年來在語音、圖像、自然語言等的語義認知問題上取得巨大的進展,為解決視覺大數據的表示和理解問題提供了通用的框架。圖像視頻內容複雜,包含場景多樣、物體種類繁多,非受控條件下,圖像和視頻的內容受光照、姿態、遮擋等影響變化大,圖像視頻數據量大,特征維度高,部分應用需實時處理,而深度學習方法的快速發展,為解決上述問題提供了有效的途徑。

深度學習利用包含多個隱層的深層神經網絡,解決需要高度抽象特征的人工智能任務,借鑒了人腦的多層(通常認為是8-10層)神經細胞處理結構,多層非線性結構使得深度神經網絡備對抽象語義特征的抽取能力和對複雜任務的建模能力。傳統神經網絡受限於過擬合(overfitting)問題,很難訓練出泛化能力強的多層網絡模型。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別的特征,以發現數據的分布式特征表示。建立深度學習的一個動機在於模擬人腦的分析處理機製來解釋數據,人腦皮質具有多層的結構,信息在人腦中逐層處理,逐步抽象。深度架構看做一種“因子分解”,即從複雜的數據中抽取出可複用的表達本質特性的特征。深度學習模型由於其多層非線性結構,具有強大的能力,特別適合大數據的學習(圖2)。這是由於傳統淺層模型由於能力有限,在訓練數據量增大到一定程度時其能力往往飽和,無法充分利用大規模訓練數據所包含的有效信息。與此對應,深度學習方法由於其強大的能力,可以較為充分的利用大規模數據,從中提取有效的特征。

機器視覺領域的深度學習方法

物體分類

在圖像領域,Krizhevsky等利用多層卷積神經網絡,在大規模圖像分類ImageNetLSVRC-2012競賽中(包含1千個類別,120萬圖像)取得了明顯高於傳統方法的結果,將Top5錯誤率由26%大幅降低至15%,該神經網絡有7層,包含約65萬個神經節點和6千萬參數。目前卷積神經網絡已經成為該領域的主流方法。在此基礎上,研究人員提出了VGGNet、GoogLeNet、殘差網絡ResidualNet等更深層的網絡,並提升了深度學習方法在大規模圖像分類領域的性能。深度網絡還能準確檢測出圖像物體的位置,也能預測例如人體部位手、頭、足的位置和姿態。

人像分析

在人臉識別方麵,深度神經網絡在人臉識別領域公認困難的LFW數據庫上超過了人眼識別的準確度。圖4給出了在人臉識別領域取得優秀性能的DeepID網絡結構,該網絡根據人臉結構的特殊性,提出了使用局部共享卷積,提升了網絡對人臉圖像的分類能力。提出麵向跨年齡人臉識別的隱因子卷積神經網絡,該網絡將隱因子學習引入深度網絡,將深度網絡中全連接層特征分解為身份和年齡兩個部分(圖5),為提升深度網絡對年齡變化的魯棒性提供了一條新途徑,實驗表明該網絡在著名的LFW數據庫上取得了99%的正確率,超過了人眼在這一數據庫上的表現97%,並在Morph和CACD這兩個重要的跨年齡數據庫上取得了領先的識別率,分別為88.1%和98.5%,還首次提出麵向深度網絡的中心損失函數,增強深度特征學習中的聚類效果,實驗表明該方法可以提升人臉識別深度網絡的性能,在MegaFace百萬級人像比對國際測試的FGNet任務中取得了良好的效果。

機器視覺深度學習.png

場景識別

場景識別與理解是計算機視覺的一個基本問題。傳統的場景識別方法多依賴於SIFT、HOG、SURF等局部特征。近年來,卷積神經網絡也被用於場景分類。早期的方法發現微調(Finetune)通過大規模物體數據庫Imagenet訓練的網絡,在場景分類中也有較好的效果。但與物體分類相比,場景類別更加抽象同一個場景類別內圖像的內容和布局可能包含複雜的變化。麻省理工學院的AI實驗室推出PLACE大規模場景數據庫,推動深度神經網絡在大規模場景分類的應用,使得研究人員可以直接利用場景數據而無需借助Imagenet訓練場景分類的深度模型。許多在物體分類中表現優異的網絡結構如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在場景分類中取得了良好的效果。研究表明,Dropout和多尺度數據增強等策略有助於深度網絡的訓練,可以緩解網絡過擬合問題;Relaybackpropagation等方法可以提升場景分類深度網絡的性能。與傳統手工設計的特征相比,深度神經網絡學習的場景特征表達能力豐富,語義性更強,因此可以在識別任務中取得更好的效果。

行為識別

行為識別是計算機視覺領域的重要問題。近年來,研究人員逐步將深度神經網絡引入視頻的分析與理解中,使其成為行為識別研究中的一個新的研究方向。Karpathy等提出一個卷積神經網絡(ConvolutionalNeuralNetwork,CNN),通過不同的時序融合策略,實現對視頻中的行為識別。然而,此模型盡管利用海量數據(sports-1M)進行預訓練,行為識別的精準性仍有待提高。

另一流行的方法是3DCNN,此類方法通過對標準2DCNN在時間軸上的擴展,實現對視頻的時空建模。但是,巨大的訓練複雜度需要海量數據的支撐或3D卷積核的分解。牛津大學提出一個雙流CNN框架以避免3DCNN的訓練問題。通過外形流(Appearancestream)與運動流(MotionStream)CNN的獨立設計,此框架在標準數據庫UCF101與HMDB51中實現了精準的行為識別。然而,運動流CNN的輸入為疊加光流,這使得此框架隻能捕捉住短時運動信息,而忽略視頻長時運動信息的理解。為進一步改進此結構的識別精準性,作者團隊提出軌跡池化的深度描述子(Trajectory-pooledDeepDescriptors),該方法為融合深度模型與傳統軌跡特征提供了一種新機製,實驗表明這種深度軌跡特征TDD較傳統手工設計的特征和傳統深度模型具有更強的表示能力和區分性,可明顯提高視頻分類的正確率。人們還開發了視頻關鍵域挖掘的深度模型,以及時間分割神經網絡,以提高此類框架的時空建模能力。另外,還開發了增強運動向量卷積神經網絡EMV-CNN,利用運動向量替代需要大量運算的光流,提速20倍以上。遞歸神經網絡(RecurrentNeuralNetwork,RNN),特別是長短時記憶模型(LongShort-TermMemory,LSTM)在各種序列建模任務中取得的成功,使得基於深度學習的行為識別方法逐步向序列建模方向發展。一種常見的訓練方法是利用雙流CNN提取的特征作為LSTM的輸入進行序列模型的訓練。

深度學習還在圖像恢複和超分辨率、圖像質量評價、語義分割與解析、圖像內容文本生成、醫學圖像分析等許多任務中取得了較傳統方法更好的結果,大大推動了相互領域技術和方法的發展。

本文由朗銳智科編輯整理(www.lrist.com),如有侵權請聯係本站。

最後更新:2017-09-06 13:04:09

  上一篇:go  智慧醫療與傳統醫療的優勢分析
  下一篇:go  人工智能芯片FPGA與ASIC的產業分析