閱讀87 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《數據驅動安全:數據安全分析、可視化和儀表盤》一1.2.4 統計學

本節書摘來異步社區《數據驅動安全:數據安全分析、可視化和儀表盤》一書中的第1章 ,第1.2.4節,[美]傑·雅克布(Jay Jacobs)鮑布·魯迪斯(Bob Rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢颺 趙爽 譯, 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。

1.2.4 統計學

或許我們在這裏有些偏向,但是撿拾起一些統計學知識幾乎會改變你生活的每個方麵。它不僅會改變你看待以及學習周圍世界的方法,而且會使你自身變得更加有趣,甚至可能在身邊的人們眼中更具魅力。嚴肅地說,雖然統計學(在這裏我們把它作為一項技能進行討論)是一個寬泛的主題,是很難喝到水的深水井。我們使用術語去描述逐漸演變的統計技術與方法集合,這些技術與方法現在已經演變成了(還在持續演變)嚐試從數據中學習的狀態。這些技能不但包括經典的統計學,還包括像數據挖掘以及機器學習這樣的新技術。非常幸運的是,你可以從相當傑出的一代代人們的成功與失敗中學到很多內容,這些人處理的數據和我們的數據非常相似,即使他們的計算器隻是筆和紙,而我們使用的是電子電路。不管你對於統計與數據分析工具的個人觀點如何,有大量證據表明,當統計學用於信息安全領域後,其影響力波及其他幾乎所有科學領域。
除了顯而易見的“從數據中學習”的方法之外,有一些更加深入的理由去集中提高你的統計技能。

  • 盡管數據從不說謊,被它欺騙卻很容易。作為具有啟發式思維的生命,我們擁有從周圍世界中提出模式及含義的能力。這種發現隱蔽的聯係及模式的能力通常很有益處,人們每天都會使用這種能力。然而需要注意的是,這種技能也可能會誤導你,你可能會認為你看見了根本不存在的模式及聯係。對統計的良好理解會使你更深層次地認識到這點,它的一些策略會使得這樣的錯誤結論數量達到最低。
  • 盡管我們剛說過數據從不說謊,但是生成及收集數據的方法會產生欺騙性的結論。比如詢問我們身邊人們的看法會導致錯誤地肯定自身的觀點,因為我們很自然地和誌同道合的人聚集在一起,且想法趨同一致。數據本身可能並不具有欺騙性,但是它卻容易導致人們聯想到一些不相符的含義,就如1936年大選投票中的預測故事一樣(請看下文“數據產生欺騙”)。

統計學並不僅是工具的集合,它是具有自己工具集的工具箱的集合。你可以從描述性統計開始,描述性統計將數據簡化為描述數據某些方麵的數字。舉例來說,你可以通過計算均值、模、中位數以得到數據的中心,也可以通過標準差來描述數據的分散程度,可以使用偏斜度解釋數據的對稱性,也可以使用峰態描述峰寬。然而不管什麼時候,隻要你簡化數據,都會在一定程度上失去數據的細節,這時候,可視化方法可以提供很好的服務。你使用可視化方法創建一段表述或者信息,這段信息包含並傳達每個數據點,沒有簡化。我們將這種類型的可視化看作“描述性可視化”,因為它僅僅簡單地描述數據。
除了過於簡化的挑戰之外,描述性統計局限於僅能描述你所收集到的數據。掃描少數幾個係統然後計算漏洞的平均數,宣稱統計數值描述了環境中的所有係統,這樣的做法是不對的。推理統計可以幫助你更深入地研究數據,而不僅僅是描述觀察值。當給你一個群體的較小代表性樣本時,你可以對更大的群體做出推理說明。這裏的關鍵詞是“代表性”。統計學教會你“實驗設計”(感謝Fisher以及他的同事們),它會幫助你收集數據,以便於你減少被數據誤導的可能性。你當然希望收集的樣本具有代表性,那麼就使用正確的數據收集方法吧。在過去,很多人已經有過前車之鑒,千萬不要重蹈覆轍。

數據產生的欺騙
《Literary Digest》雜誌進行了一次民意測驗,嚐試預測1936年的總統競選結果。他們通過電話簿、俱樂部會員身份以及雜誌訂閱信息收集人名單。結束測驗時,回應信息已經超過200萬份並且預測了一位似乎明顯的勝利者:Alfred Landon(對於這些人來說,美國曆史並沒能如他們所願,民主黨候選人Roosevelt贏得了這場大選,他在46個州中勝出)。《Literary Digest》雜誌的問題在測驗之前就已經存在,故障出在數據的來源。注意這一年大選在1936年,此時美國的大蕭條還沒有結束。他們通過電話簿、俱樂部會員身份以及雜誌訂閱信息收集人名單,而這些人大體上屬於中層及上層階級,這些人普遍偏愛Landon,以至於得到的答案在數學方麵正確而與實際完全不符。
數據沒有說謊,如果他們想知道,在使用電話、俱樂部會員身份以及訂閱雜誌的美國人中,哪位總統候選人會獲得最多選票,這些數據陳述了一個準確的故事。但是他們並非在尋找那個故事,他們想要知道的是美國所有已注冊選民的看法。由於在選取數據樣本來源時有偏差,導致加入了數據中根本不存在的含義。
他們擁有的史無前例的200萬份回複的事實並不能幫助提高民意測驗的準確度。當這樣類似係統性的錯誤存在時,收集更多數據隻會形成更大的偏差樣本。為了徹底闡明這一觀點,在同樣的1936年選舉中,一個叫George Gallup的年輕人收集了一份相對較小、僅有5萬選民的樣本,他應用了更多有代表性抽樣方法,正確地預測了Roosevelt將會成為1936年選舉的勝利者。幾年以後,《Literary Digest》雜誌停業,而Gallup Inc.現在已經成為一個國際性機構,仍然做調研以及收集數據的谘詢。

應該始終以一種尊敬與謙卑的態度來對待統計學。當你不知不覺地慢慢進入應用數學的深處時,你會發現找到那些不存在的含義(學術上稱作I類錯誤)有多容易。但是更重要的是要理解無論有無數據這種錯誤都會出現。這種錯誤甚至會出現於你填寫Excel電子表格的一個空格之前,工具箱中最好的工具被設計用於限製這種類型錯誤出現的機會,但是單獨的統計是不夠的。你需要將經驗與數據相結合以減少被誤導的可能性。即使經驗與數據相結合,這種錯誤仍可能出現。但是你可以通過應用嚴謹的作風以及方法來減少這種錯誤發生的頻率。當這種錯誤真的出現時,這嚴謹的作風會把你放在一個更好的位置去從錯誤中學習。
我們已經建立了統計學應用的權威性,應該指出的是,即使沒有高級的統計技術,你也可以從數據中學到很多內容。回想之前提到過的“描述性可視化”,花費一點時間看看周圍的那些可視化的信息。它們通常不是從統計模型中建立,而是描述一些數據集並說明其中的關係。圖1-1中Snow所繪的Board Street上水泵附近區域的圖沒有涉及邏輯回歸以及機器學習。這幅圖僅僅是地址與死亡間關係的可視化描述。毫無疑問,你可以使用簡單的統計方法以及描述性可視化提高保護信息資產的能力。你所需要的隻是提問、收集證據、做出清醒的認識以及將其傳達給其他人的耐心。

最後更新:2017-06-21 17:02:45

  上一篇:go  Spark與深度學習框架——H2O、deeplearning4j、SparkNet
  下一篇:go  《數據驅動安全:數據安全分析、可視化和儀表盤》一1.2.3 數據管理