深度學習方法在機器視覺領域的發展
隨著各個行業信息化程度的普及,任何行業所積累的數據會越來越多,但當真正麵對海量數據時,各行業才意識到數據處理能力遠遠不夠。目前大多數機器視覺處理係統可以很好地采集、傳輸和存儲圖像視頻,但是缺乏對其圖像視頻內容高效準確的分析、識別和挖掘方法。有了深度學習,機器學習才有了許多實際的應用,它還拓展了AI的整體範圍。 深度學習將任務分拆,使得各種類型的機器輔助變成可能。
深度學習.jpg
目前,深度學習已經在人工智能的多個應用領域如圖像分類、語音識別、自然語言理解等取得了突破性的進展。深度學習由於其優異的效果,也引起了工業界的廣泛興趣,以穀歌、臉譜、微軟、百度等為代表的互聯網企業已經成為深度學習技術創新的重要力量。
今天,在某些場景中,經過深度學習技術訓練的機器在識別圖像時比人類更好,比如識別貓、識別血液中的癌細胞特征、識別MRI掃描圖片中的腫瘤。穀歌AlphaGo學習圍棋,它自己與自己不斷下圍棋並從中學習。深度學習還在圖像恢複和超分辨率、圖像質量評價、語義分割與解析、圖像內容文本生成、醫學圖像分析等許多任務中取得了較傳統方法更好的結果,大大推動了相互領域技術和方法的發展。
目前的深度學習方法往往依賴大規模數據進行訓練。但並非所有的視覺問題都有充足的訓練樣本,如特定人或物體的檢索,罕見物種的識別、醫學圖像中的稀有病例等,訓練數據可能非常稀少或者收集大量樣本的代價會很大。於此相對應,人的視覺係統僅需要少量樣本就可以識別類別,這很多程度是因為人可以複用在其他領域學習所得知識和經驗。近年來小數據樣本(Smalldataset)的學習越來越引起研究人員的關注,如何利用小數據樣本來進行有效的深度學習,是一個有待解決的挑戰性問題。
深度卷積網絡采用誤差反向傳播算法進行參數學習,這就要求訓練數據有明確和豐富的監督信息。但在許多實際問題中,對圖像進行詳細、精確的標定極為耗時(如場景解析中的像素級標簽、視頻中精細的時空標定等);並且,許多訓練數據中監督信息缺失或監督信息包含噪聲(如從互聯網中收集的照片)。如何利用弱監督、噪聲監督、非監督統信息來訓練深度網絡,對利用大量標定不完全的數據具有重要的實際意義。
深度神經網絡往往規模巨大、參數眾多。以AlexNet網絡為例,雖然輸入圖像已經被縮小到224×224,但模型仍包含六千萬的參數。這使得深度神經網絡較難應用於計算和存儲資源受限的場合如移動終端、嵌入式係統等。同時,也使得人們很難把高分辨率的圖像直接作為深度網絡的輸入。如何對複雜深度網絡模型進行壓縮和加速,降低運算和存儲消耗,對解決深度學習方法資源受限的難題具有現實意義。
深度學習的發展伴隨著它對其它領域的革命過程。朗銳智科(www.lrist.com)認為在過去的數年中,深度學習的應用能力幾乎是一種“敢想就能成”的狀態。這當然得益於現今各行各業豐富的數據集以及計算機計算能力的提升,同時也要歸功於過去近三十年的領域經驗。
最後更新:2017-09-20 14:03:10