閱讀339 返回首頁    go 阿裏雲 go 技術社區[雲棲]


機器學習自主解決安全威脅離我們還有多遠?


0?wx_fmt=jpeg


曾經聽見不止一次這樣的問題:


機器學習會替代基於人工經驗規則的安全解決方案麼?

把這個問題放在去年來看,我們已經得到了非常多的討論甚至是一些已經實際應用的解決方案,對於人工智能在安全以及其它各種對數據進行價值挖掘的場景下,大家都表現出了極高的興趣與激情。

1.你希望機器學習幫助你解決什麼問題?

這個問題實際上代表了我們對機器學習的期待,而絕大多數人包括筆者在內的回答可能都比較類似:

我希望機器學習算法能夠幫助我更有效的挖掘數據內在價值,發現潛在未知問題,並且極大的節省人工成本;實際上有更偏激的想法是想把數據丟給模型算法,然後期待它可以告訴我所有我想知道的事情。

2.機器學習應用在安全場景下的擔憂

筆者最初發現機器學習算法的應用並不是在安全領域,而是在電商精準營銷的場景下,通過用戶的一係列搜索、收藏、購買行為積累,預測一個新的用戶可能更傾向於買什麼商品從而進行推薦。

這與安全場景是有一定類似性的,同樣也是通過用戶的訪問、登陸、購買行為對威脅進行預測,評估一個用戶是否是壞人。但這兩個場景又具有一個本質的不同:

在精準營銷場景下,你預測錯誤推薦了一個用戶他不喜歡的商品,用戶並不會為此大發雷霆;但是如果你的算法錯誤的預測了一個壞人的身份,用戶又因此而被鎖定賬號、封禁或被限製,影響的就不僅僅是用戶的感受,同時也降低了信任甚至對其他用戶產生負麵影響,我們所承擔的代價是不同的。

3.機器學習在當下更多的是一個驅動者

在有限條件的應用場景下,機器學習無論從效率還是效果上都有著驚人的表現,從下圍棋到設計電路板,我們無法理解也無法解釋為什麼電腦能夠做的又好又快。

安全場景下為什麼去封禁一個IP或者取消一個訂單是需要給業務部門合理的解釋的,一個黑盒的邏輯最大的弊端就在於對於給出的結果合理性無法從常識角度來給出解釋,你隻能默認接受。

所以,我們看到應用了各類機器學習算法的安全解決方案往往會回避最終決策的步驟,而是交給人工進行再次確認或隻做參考。由此筆者認為,現階段機器學習更多的是一個驅動安全運營的角色。

4.數據質量決定了機器學習算法應用於安全場景的價值天花板,而安全運營則是決定了轉化率

數據源就是機器學習算法的黃油和麵包,沒有高質量的數據喂進去很難指望有高價值的產出,而目前接入數據的思路主要有兩種:

  • 一種是從企業現有數據中去做清洗和適配,這種方式對於集成雙方都是一個非常痛苦的過程;

  • 另外一種是摒棄企業現有存量數據,通過JS、SDK等方式從底層通用環節重新搭建業務數據模型,這種方式會導致曆史數據無法有效的應用。

從賣方來講,希望後一種模式,因為降低了方案實施難度,複製性較強,產品形態簡單。而從買方來講,條件允許的情況下都希望前一種模式,因為可預期的產出價值最高。

兩種想法衝撞的結果下,最終會尋求到一個平衡點,但這裏存在一個特例,也是最近兩年比較熱的威脅情報+機器學習概念,區別於內部數據挖掘場景,威脅情報的數據大多都來自外部,服務提供方一次性接入數據便可以快速複製給多個客戶,這無疑規避了一個客戶一個處理方式的弊端。

但筆者認為,威脅情報如今可以快速聚集起大量數據的原因在於數據持有者變現意願增強同時監管存在空白,之後還是存在很大的政策風險的。

而我們進一步來看機器學習應用所驅動的安全運營,“一人安全部”甚至沒有安全運營是目前的普遍現狀,在機器學習引入過之後發現依然需要大量的調優、協調、結果落地評估工作需要人工來完成,這種尷尬局麵我認為在熱度過後,今年會有更多的冷靜思考,認識到:既然現在沒有可以絕對替代人工完成風險決策的方案出現,那麼安全運營這個角色就是不可或缺的,至少是在目前的過渡階段。

5.機器學習的安全前景

經濟增長往往都來自於生產效率的大幅提升,所以無論是在安全或是其他,機器學習的應用都已經表現出了可承諾的前景。

0?wx_fmt=jpeg

在這個過程中,低層次數據分析的人工角色會逐漸的被淘汰,而可有效鏈接數據與價值的高端人才將持續保持其競爭力,至少我們需要知道現階段的機器學習算法並不能讓我們放心的坐到一邊喝咖啡,它自動解決所有問題,依然需要我們不斷的給予正確的關注和培養,不是嗎?

原文發布時間為:2017-03-16

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-22 16:01:38

  上一篇:go  Mutex和內存可見性
  下一篇:go  Java I/O : Java中的進製詳解