閱讀485 返回首頁    go iPhone_iPad_Mac_apple


《數據驅動安全:數據安全分析、可視化和儀表盤》一1.2.1 領域專業知識

本節書摘來異步社區《數據驅動安全:數據安全分析、可視化和儀表盤》一書中的第1章 ,第1.2.1節,[美]傑·雅克布(Jay Jacobs)鮑布·魯迪斯(Bob Rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢颺 趙爽 譯, 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。

1.2.1 領域專業知識

一個數據科學家需要領域專業知識的事實應當是不言而喻的,也似乎是顯而易見的,但隻有在考慮更高的目標時,進行數據分析才有意義。你關於信息安全的經驗將引導分析方向,提供數據的來龍去脈,並幫助將含義應用於結果。換言之,領域專業知識將有益於開始、中間和所有數據分析工作的終點。
為什麼專業知識不應該成為攔路虎
我們很可能在這裏白費口舌。如果你正在讀這本書,那很可能你擁有領域專業知識並看到了信息安全領域中使用數據驅動方法的價值。因此,與其花精力討論的數據分析領域的專業知識的優勢,不如介紹一些你可能會遇到的專家(或持懷疑態度的領導)對數據分析工作的反對意見。
人比模型更聰明。有一些人認為,人總是會勝過算法(或統計數據,或模型),並且還有一些事實可以證明。比如教一個機器去抓住飛球是非常具有挑戰性的。就像Kahneman和Klein在2009年的論文《Conditions for Intuitive Expertise: a Failure to Disagree》中指出,但是,決定何時人們的表現將優於算法在很大程度上依賴於任務的環境。如果環境是複雜的,並且反饋是延遲或不明確的,算法一般會勝過人類的判斷。所以,問題就變成了,信息係統的安全性有多複雜,以及反饋有多清晰?當你更改或添加安全控製時,你收到多少關於它實際保護信息資產情況的回報?
結果是信息安全發生在一個非常複雜的環境下,但是,這並不意味著你把所有的雞蛋都放在算法籃子裏。意思是,你應該對任何純粹靠人為判斷的方法持懷疑態度,你應該設法加強和支持專家的意見。這不是將算法與人為判斷進行比較,設立一個非此即彼的選擇是不明智的,應比較純粹的人為判斷與結合了算法及數據分析的人為判斷。你不想刪除人的因素,但你應該對未經數據證實的觀點持懷疑意見。在一個複雜的環境中,人的直覺和數據分析相結合,將產生最佳效果,並創造學習和穩固基礎設施的最佳機會。
它僅僅是數據造假。這顯示了對數據統計以及數據分析的普遍不信任環境,因為數據統計分析經常出於一些見不得人的動機被濫用以及誤用(在某些情況下數據完全是捏造的)。在某種程度上,這種不信任是基於社會工程師極易獲取的集體常識。即便如此,由於我們的目的是從數據中學習,我們就處於不一樣的出發點。我們坐在一堆堆隱含很多信息和特征的數據麵前,我們要去發現這些信息和特征。如果因為數據統計曾經被濫用我們就不使用數據分析,就如同因為汽車偶爾被用於接送服務而不再開車一樣可笑。我們要習慣於將數據統計加入到我們的信息安全工具箱內。
並不是說數據分析是萬無一失的,即便有時候數據分析產生了錯誤的結果,也許是因為錯誤的數據收集,或由欠專業的分析師操作,或源於處理過程中的錯誤,或僅僅是因為使用Excel(這種情況確也無法避免)。但是,將專業知識和具體數據相結合,就能夠有效減少錯誤的發生。再次強調一下,減少錯誤的關鍵在於將數據分析和專業知識進行結合。
數據分析不是製造火箭的科學,這個說法有兩個含義。第一個含義是,不管我們嚐試解決什麼問題,我們都可以用常識去解決它。這個觀點可以追溯到我們在上文提出的“人比模型更聰明”,並且會議桌上的一群人不依賴數據分析就解決一個複雜的問題。但正如我們討論到的,卻也有必要在會議上為數據分析提供一席之地,因為有數據分析總比沒有好。
上邊這個說法的第二個含義就是,數據分析過於複雜且花費巨大(時間、金錢、資源)。這樣的觀點是完全錯誤的,這可能更擔心在實際操作中會帶來令人不爽的改變,而不是真正擔心數據分析所花費的時間。數據分析的很多工具都是開源的(如果某些組織不願意開源,那也會有大量的商業解決方案可以選擇),而唯一需要付出的僅僅是花時間學習本書提到的一些數據分析的基本技術和方法。實際上,如果能夠正確地將工具和經驗進行結合的話,數據分析可以進行得非常迅速,甚至可以實時完成。
我們沒有數據。另一種形式的反對意見提出,我們沒有精確數據(這在風險分析中更為普遍)。反對數據的人認為“非完美數據即是毫無價值的”,並阻撓開展設計良好的實驗。這個觀點是虛假且害人的,如果我們隻是等待著完美的數據,那麼我們將會永遠隻是等待,並且漏掉了很多從數據中學習的機會。駁斥這個反對意見最重要的核心論點是,我們並不需要完美數據。我們僅僅需要可以從已有的混雜數據中學習的方法。正如Douglas Hubbard於2010年在其著作《How to Measure Anything》中提到的,“事實上,相比於預期,我們經常具有更多的數據,我們隻需要更少的數據,並且可以更容易地通過觀察從數據中獲得更多的數據”。所以,一般來說,用於安全分析的數據是絕對存在的,通常情況是,它們正等著被收集起來呢。我們能對粗略的數據加適當的改動、收集,然後準確地分析數據。現代的數據分析方法已經解決了如何處理具有噪聲的、不完備數據的問題。
我們會墜入黑暗。這是我們考慮的最後一個觀點了。這個觀點並不是那麼強烈地反對數據分析,僅僅算一個障礙而已。當你在會議上被視為某個領域的專家時,大家就希望你能給出問題的解答,而當會議的問題不清晰、不確定的時候,就會產生衝突。數據分析恰恰要求適當的自我認知和人性,以便為自以為是的疑慮留有餘地。即便你自信地宣稱密碼是滿足一定複雜度若幹位字符,但你永遠不知道可用性和安全性之間的平衡點。人的信心是需要用人性平衡的,可以根據新的證據知識來更新一個人的觀念。數據分析中的這個障礙並不主要局限於分析師,其他涉及分析的領域專家也同樣麵臨自身的人性問題。畢竟並不是每個人都願意聽到“他的世界不是平的”。

最後更新:2017-06-21 17:02:41

  上一篇:go  《數據驅動安全:數據安全分析、可視化和儀表盤》一1.2.2 編程技能
  下一篇:go  RBAC新解 - 基於資源的權限管理