閱讀841 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《數據驅動安全:數據安全分析、可視化和儀表盤》一3.2 獲取數據

本節書摘來異步社區《數據驅動安全:數據安全分析、可視化和儀表盤》一書中的第3章 ,第3.2節,[美]傑·雅克布(Jay Jacobs)鮑布·魯迪斯(Bob Rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢颺 趙爽 譯, 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。

3.2 獲取數據

我們正在進入信息安全的數據時代。當前的挑戰不是從哪裏獲得數據而是如何處理數據,數據集中信息的種類將決定你的研究類型。
對於這個例子,SOC選擇整合AlienVault的IP信譽數據庫放入SIME(https://labs.alienvault.com/labs/index.php/projects/open-source-ip-reputation-portal/download-ip-reputation-database/)。AlienVault自己研發了OSSIM,OSSIM既是一個開源的安全信息管理器,也是一個專有的統一安全管理(USM)產品。OSSIM可以使用各類免費的數據集,其中包含來自互聯網的各種類型的“壞數據”。AlienVault提供各種格式的免費數據。在這裏,你所使用的是OSSIM格式的數據(https://reputation.alienvault.com/reputation.data),在眾多數據格式中它能提供最豐富的信息。
AlienVault按小時更新其IP信譽數據集,並且同步產生一個名為“修訂版”(revision)(https://reputation.alienvault.com/reputation.rev)的文件,使你能夠確定你正在使用的是最新數據集或保存了曆史數據集。如果你計劃對這個數據集進行長時間的分析(這通常稱為縱向研究),一個好的辦法是修改一些代碼來執行檢查,看看是否需要下載一個新的數據集,即使是在進行一些預定的作業時。
在進行探索性分析或者想先看一看數據集的時候,你可以通過瀏覽器(或者使用wget和curl命令)將它下載下來。AlienVault數據庫的大小將近16MB,在較慢的網絡環境下可能要花費1到2分鍾的時間下載。當你下載了AlienVault IP信譽數據庫並且驗證了第一部分的數據元素時,你會對這些數據的內容和格式產生一些想法,這些想法會在你閱讀和處理數據的過程中派上用場。在後續的代碼中,你可以使用一些簡單的Linux/UNIX命令進行下載:
image

對於大多數項目,最好養成直接從你的分析腳本中獲取數據源的習慣。如果你仍然喜歡手動下載文件,應該在程序中增加一些注釋來記錄數據的來源以及當前分析數據的獲取時間。這些注釋能夠幫助你在之後更容易地重複這些分析。請相信我們,你一定會比你預期的更頻繁地重新閱讀你的代碼以及重新進行分析。
接下來的示例(程序清單3-2和程序清單3-3)展示了如何使用R和Python兩種語言來獲取這些數據。如果你依照RStudio或者IPython,所有的代碼示例都假定位於項目結構的頂層的工作目錄(例如在第2章中建議的執行book/ch03目錄,可以手動生成或者用prep腳本來生成該目錄)。對於大多數情況,代碼塊是獨立的,但每個塊都期望在已經運行了RStudio或IPython的會話中執行這部分片段以及下一節中的片段。
程序清單3-2
image

程序清單3-3
image

R語言和Python語言的代碼看起來非常相似並且遵循相同的基本結構:對URL和文件名盡可能使用變量,在重新下載之前驗證這些數據文件是否已經存在。這些都是很好的習慣,我們會在本書的其餘部分強調其他的良好習慣。
獲得了IP信譽數據,到了讀入並使用這些數據的時候了。

最後更新:2017-06-21 18:02:19

  上一篇:go  《數據驅動安全:數據安全分析、可視化和儀表盤》一3.3 讀入數據
  下一篇:go  《數據驅動安全:數據安全分析、可視化和儀表盤》一3.1 解決一個問題