閱讀159 返回首頁    go 阿裏雲 go 技術社區[雲棲]


關於機器學習在網絡安全中的五大誤解


0?wx_fmt=gif

機器學習已經滲透到了人類活動的所有領域,它不僅在語音識別、手勢識別、手寫識別和圖像識別上起著關鍵的作用,這些領域如果沒有機器學習在現代醫學、銀行、生物信息和存在任何質量控製的行業中都是一個災難。甚至機器沒有學習和生成的能力,連天氣預報都無法做出。但是此時我想澄清一些問題——關於機器學習在網絡安全領域的使用中存在的一些誤解。


 誤解一 網絡安全中的機器學習是新鮮玩意

由於某種原因,在網絡安全中的人工智能技術變成了過去流行的東西。如果你沒有長期關注過這個主題,你可能會認為這是新的東西。

一些場景:第一個機器學習算法,人工神經網絡在上個世紀50年代就被發明了。有趣的是,在當時人們都認為該算法將很快導致“強”人工智能的出現。即,智能的思考能力、獨立思考並可以解決那些默認編程程式外任務的人工智能。可隨後就是“弱”人工智能的時代,它可以解決一些創造性的任務,比如識別圖片、預測天氣、玩象棋等。六十年後,我們會對一些基本事實有更多的理解,那時真正的人工智能也許已經出現了,而我們現在提起的人工智能其實更準確的說是機器學習。

當談到網絡安全領域時,機器學習也不是什麼新鮮事。這類算法在十年前左右就提出了,那時候新的惡意軟件數量每兩年翻一番。

但是簡單的自動化對病毒分析師來說是不夠的,它需要一個質的飛躍。這個飛躍出現在處理病毒家族樣本時,可以用機器學習來搜索和已經判別完成的樣本相似的文件。最終一個文件是否是惡意的以前要由人來判斷,但是這個工作快速地轉移給了機器。換句話說,在網絡安全行業,機器學習沒什麼新奇的。

誤解二 網絡安全中的機器學習簡單明了——一切都有現成的

在某些領域,機器學習有一些早就準備好的算法,這確實是事實。這些領域包括麵部、情感識別或者從狗中區分貓。在這種情況下,通常是有一些人做了大量的思考、確定必要的標識、選取適當的數學工具、設置必要的計算資源然後公布他們的研究結果。現在,每個做這些工作的人都可以利用這些算法。

0?wx_fmt=png

這導致了一個錯誤的印象,好像把惡意軟件檢出的算法也已經存在了。實際情況並非如此,我們在卡巴斯基實驗室花了超過十年的時間來開發這項技術,並申請了許多專利。我們持續進行研究、提出新的想法也與下一個誤解有關。

誤解三 機器學習——做一次就夠了

惡意軟件檢測和人臉識別在概念上的區別,臉永遠是臉,在這方麵永遠也不會有什麼改變。在機器學習被應用的大多數領域中,目的不隨時間變化,但是在惡意軟件檢出這個範疇內,事情在不斷且快速地變化著。因為網絡罪犯往往是高動機的人,為了錢、間諜活動、恐怖主義等。他們的智力不受人工的局限,他們積極出擊、故意修改惡意程序好擺脫已有的成熟模型的檢測。

這就是為什麼這些模型需要不斷學習、不斷修正,甚至推倒從來。顯然,麵對快速變化的惡意軟件,基於沒有反病毒數據庫模型的安全解決方案是毫無價值的。當必要的時候,網絡犯罪分子可以以創造性的思考來應對。

誤解四 你可以讓安全軟件在客戶端進行學習

比方說,在處理客戶端文件的時候,絕大多數文件都是安全的,隻有少部分是惡意的。後者是會變異的,但是你設計的模型可以自己學會應對。

然而事情卻不是這樣的。因為通過客戶端的惡意樣本的平均數量要比反病毒實驗室收集到的惡意樣本數量小得多。客戶端會因為沒有收集到樣本進行學習而喪失應對能力。對病毒作者的“創造性”的檢測就一定會失敗,模型此時把惡意軟件識別為安全的文件,將會學到“錯誤”的東西。

0?wx_fmt=png


誤解五 開發一個基於機器學習的模型就夠了

為什麼要使用基於不同技術的多層次保護?如果那個籃子是如此的聰明和先進,為什麼不把所有的雞蛋都放在同一個籃子裏?這樣一種算法就可以解決所有問題了。

問題是大多數同家族的惡意軟件都是由一個惡意程序修改而來的。例如 Trojan-Ransom.Win32.Shade 是一個擁有超過三萬個惡意樣本的家族。一個模型可以通過大量的樣本訓練,來獲得檢測未來威脅的能力(在一定限度內,見誤解三)。在這些情況下,機器學習的效果很好。

但是,通常的情況是一個家族隻包括了幾個樣本,甚至隻有一個樣本。也許是作者不想其心血的惡意程序由於惡意行為被檢出後陷入和安全軟件的長期鬥爭。相反,他選擇去攻擊那些沒有安裝安全軟件或者沒有行為檢測的人(即那些曾把所有雞蛋都放在一個籃子裏的人)。


這些各式各樣的隻有一兩個樣本的“小家族”不能應用於“訓練-推廣”這個傳統的機器學習模式。在這種情況下,用久經考驗的哈希、掩碼可能會更好的檢出威脅。

另一個例子是有針對性的攻擊,這些攻擊的幕後黑手不打算製造越來越多的新樣本,一個受害者就隻用一個樣本,此時你可以肯定這個樣本不會被保護方案檢出(除非這是一個轉為此目的開發的平台,例如卡巴斯基的反針對攻擊平台),又一次是基於哈希的檢測勝出了。

結論

不同的工具要在不同的情況下使用,多層次的保護要比單層保護更有效,不要因為它們不“時髦”就忽略了那些有效的工具。

原文發布時間為:2016-12-08


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-27 11:02:17

  上一篇:go  蘋果交管局反饋信曝光 首次官方披露自動駕駛相關計劃
  下一篇:go  平行宇宙可能存在,而這意味著我們要認真活好每一天