閱讀523 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《數據驅動安全:數據安全分析、可視化和儀表盤》一1.3 以問題為中心

本節書摘來異步社區《數據驅動安全:數據安全分析、可視化和儀表盤》一書中的第1章 ,第1.3節,[美]傑·雅克布(Jay Jacobs)鮑布·魯迪斯(Bob Rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢颺 趙爽 譯, 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。

1.3 以問題為中心

盡管我們認為數據分析應該十分有趣,但是由於它本身特性,卻從未如此。數據分析始終在一個更大的上下文內進行的,並且理解這個上下文是成功進行數據分析的關鍵,忽視了數據分析的上下文就如同賽跑的時候不關注終點線一樣盲目,我們要清晰地認識從數據中學到的東西。總之,每一個良好的數據分析項目一開始就設定一個目標,並創建一個或多個研究問題(research question)。也許你已經遇到一個可視化或分析研究,並且疑惑“好了,可是要做什麼呢?”,產生這樣的反應有可能就是因為在分析中缺乏一個預設的研究問題。記住,數據分析的目的是從實際環境中來學習,學習的過程中數據可有可無(會取得不同程度的成功)。創建和跟進一個好的研究問題不僅僅是好的數據分析的組成部分,也是好的學習過程的一個組成部分。如果沒有一個良好的研究問題來引導數據分析的過程,就可能把時間和精力浪費在從數據中尋求一些容易的答案,或者更糟糕的是,你可能隻是在尋找一個無人關心的問題的答案。
例如,圖1-4顯示了某組織給定月份中垃圾郵件的數量和類別的對應關係。多虧一個郵件過濾係統生成的日誌,才使收集和展示這些信息得以完成,但是該組織對於這些數據回答的問題(以及後續應采取的行動)卻不太關心。很難想象有人看著這圖表,並想“讓我們來看看為什麼12月份的旅遊主題的垃圾郵件會上升”。如圖1-4所示是失敗地選擇了或者略過了研究問題導致的,為了數據分析而數據分析,未能有助於提供給人們任何有意義的環境信息。
圍繞垃圾郵件較好地一個研究問題可能是“在未被郵件過濾係統阻攔的垃圾郵件上,員工花費了多少時間?”僅計算有多少垃圾郵件被阻攔是沒有價值的,因為它沒有任何語境意義(沒人可以估算1000與5000封垃圾郵件之間的效率差異),我們想知道垃圾郵件對員工生產率產生的影響。雖然生產率是難以直接度量的,我們可以轉變一下,並且認為當員工在閱讀和刪除垃圾郵件的時候是沒有工作效率的。因此,我們真正要度量的是員工在處理未過濾的垃圾郵件時所花的時間。
現在,研究問題被設計成這樣:我們不能指望垃圾郵件過濾係統的日誌來回答這個垃圾郵件相關的問題,並且我們真的不在乎上千的郵件被阻攔在外圍或者什麼樣的郵件被阻攔。有研究問題在手,我們知道要收集度量員工的處理時間,或許可以看看郵件客戶端在用戶標記垃圾郵件時產生的事件日誌,或許在選取部分用戶做為樣本時進行一個簡單的調查,記錄下他們在某段時間內收到的垃圾郵件數量以及花費在這些郵件上的時間。無論什麼方法,這項分析工作的背景以及目的是根據研究問題來製定的,而不是源於我們可獲取的數據。

image

最後更新:2017-06-21 17:31:57

  上一篇:go  《數據驅動安全:數據安全分析、可視化和儀表盤》一1.3.1 創建一個好的研究問題
  下一篇:go  《數據驅動安全:數據安全分析、可視化和儀表盤》一1.2.6 將這些技能組合起來