閱讀592 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《數據驅動安全:數據安全分析、可視化和儀表盤》一1.1 數據分析簡史

本節書摘來異步社區《數據驅動安全:數據安全分析、可視化和儀表盤》一書中的第1章 ,第1.1節,[美]傑·雅克布(Jay Jacobs)鮑布·魯迪斯(Bob Rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢颺 趙爽 譯, 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。

1.1 數據分析簡史

想要領略數據分析統計和可視化的魅力,一個最好的方法就是回顧這些方法嶄露頭角的曆史。下麵的例子生動地展示了使用這些方法前後的對比圖,演示了新技術帶來的巨大好處。

1.1.1 19世紀的數據分析

20世紀之前,對數據的使用和統計仍然是相對落後的。數據分析雖然早在18世紀就取得了長足的發展,但是彼時大多數科學研究隻是用一些基本的描述性統計方法來證明一些假說的正確性。無力從繁雜的數據(幾乎所有的真實數據都會有多多少少的噪聲)中得出明確的結論,導致了大量的科學辯論聚焦於對數據的看法,而不是數據本身。19世紀,兩個醫學教授就霍亂的病源展開了一場激烈的辯論,這種細菌感染在當時往往是致命的。
1849年,倫敦霍亂爆發,狀況極其慘烈,僅僅一年,就奪走了超過14 000人的生命。人們當時並不了解霍亂的病源,兩個醫學教授提出了兩個相互競爭的理論。其中,William Farr,一位公認的、受人尊敬的流行病學家,堅持認為霍亂是由分解不衛生的物質產生的空氣汙染引起的(官方稱為瘴氣理論)。而另一位也十分成功的(不如William Farr出名)流行病學家John Snow則提出,霍亂的傳播是因為食用了被“特種動物病毒”(早於細菌和病菌的發現)汙染的水。兩位學者就此辯論了多年。
Farr在1852年發表了“1848-1849英國霍亂死亡率報告”《Report on Mortality of Cholera in England 1948-49》,他在報告中提供了一張采集於倫敦38個區的數據表,裏邊包含了8個可能的解釋性變量。在這篇文章中,Farr提供了一些相對簡單的(在今天看來)統計數據,並且在霍亂死亡數和地區平均海拔之間建立了關係(海拔越低的地區有更多的人死亡)。雖然在Farr收集的8個因素中,有一個是霍亂死亡數和飲用水源之間的關係,但是他斷定霍亂與海拔的關係比水源更有意義。Farr的理論具有一定的數據支持和邏輯性,並且被他的同行所接受,在當時被奉若真理。
而John Snow則是公開質疑Farr的理論,並且不遺餘力地證明自己的觀點。據說他甚至在1854年霍亂大爆發期間挨家挨戶地走訪倫敦Soho區,收集相關的數據信息。也正是通過這場大爆發的霍亂以及他收集的數據,Snow整理製作了一張至今聞名的圖,見圖1-1。在這張手繪的Soho地區地圖中,Snow在有過霍亂死亡報告的地方做了一些細小的標記。在這個圖上疊放一張Broad Street飲用水泵(附近市民會來此獲取飲用水)的位置分布圖,就能看出標記的點明顯地在水泵位置周圍增多。有了這個分布圖並在Snow堅持不懈的請求下,倫敦終於同意將Soho區處理飲用水的水泵拆除,不久,流行的霍亂在該區消退。然而這些效果也沒能夠說服那些針對Snow的批評家。一直到Snow 1858年去世以後,霍亂的病源還在爭論不休。


image


這些對霍亂病源的爭論使用了包括數據和可視化等技術(遠在有計算機出現之前),但是爭論雙方誰也沒能夠說服對方。在2003年,英國的統計學家通過使用現代的統計方法去計算Farr在1852年公布的數據,對他和Snow之間的這場爭論做了重新檢驗。他們發現,Farr用來證明霍亂源於空氣傳播的數據恰恰證明了Snow的觀點。他們甚至推測,如果Farr可以用現代的統計學方法處理他收集的數據,Farr肯定會改變自己的觀點。幸運的是,讀者是能夠接觸到這些現代的統計方法的。

1.1.2 20世紀的數據分析

就在Farr和Snow關於霍亂的爭論之前的幾年,倫敦北部Rothamsted一個農業研究所開始進行實驗,研究肥料對作物產量的影響。研究人員花費了數十年進行實驗並且收集記錄了各類實驗數據,如作物產量、土壤的測量數據以及天氣因素等。他們遵循了一種現代日誌記錄方法,十分用心地收集和存儲了這些數據,但是仍然無法獲取到這些數據的全部價值。直到1919年,他們雇用一個年輕有為的統計學家Ronald Aylmer Fisher,希望Fisher通透地分析這些超過70年的數據,來幫助研究所理解這些數據。Fisher接受了這個充滿挑戰性的任務,很快地紮入到這些混亂的數據裏,並且,他發現很難將肥料對作物的影響與其他因素隔離開,比如天氣因素或者土壤質量。Fisher在這項挑戰性的工作中的發現不僅僅改變了統計學領域,而且改變了20世紀幾乎所有的科學領域。
Fisher的發現(對統計學具有革命性貢獻的發現之一)是,如果一個實驗設計得當,那麼不同因素對實驗結果的影響不僅可以隔離,也可以分別測量計算。Fisher恰當地設計了這個實驗,從而可以將天氣因素、土壤質量以及其他影響實驗的因素隔離開,和不同的肥料混合物的效果做對比。他的這項工作不僅僅用於農業研究,Fisher在Rothamsted發明的實驗方法同樣被廣泛應用於今天,從醫療到考古挖掘等幾乎一切行業。Fisher以及他同事們的工作對20世紀的科學發展起到了革命性的作用。在18世紀,統計學家隻是簡單地收集數據,然後得出這些統計數據來支持自己的觀點。而今,他們有了相應的工具,可以用來設計完善的實驗,也可以使用相應的技術來模擬實驗因素怎樣影響他們的實驗和結果。
當前,科學領域包含了統計模型,很多的統計和科學教育聚焦在開發和測試統計模型以及這些模型背後的假設。幾乎所有的統計學問題都以“統計模型是怎樣的?”為開始,並且以可以使用這個模型來描述問題甚至預測相應結果為結束。這代表著科學研究方法的一個巨大飛躍,現在已經可以完成一些以前根本不可能做的研究。如果沒有計算機,恐怕科學研究還停留在考慮怎樣讓這些技術變成現實,但是目前已十分普及的計算機為數據分析開辟了一個新的領域,這個領域在之前是不可能的和深不可測的。

1.1.3 21世紀的數據分析

Farr和Fisher的事件能夠反映之前的數據分析的幾個發展階段,可是卻很難僅用單個的人物或者事件來反映當今的數據分析的發展曆程。首先令人難忘的是統計學家John Tukey,1962年他就在文章中提到數據分析科學應該不同於統計學(即使數據分析會用到統計學)。他說,比起數學內容,數據分析必須包含更多的科學內容(能說“數據科學”的概念從此誕生麼?)。Tukey不僅僅是一位成功的統計學家,還為統計學貢獻了無數的規程和技術,他還是將可視化技術應用於描述和探索數據的早期支持者。你會在本章的後續部分繼續接觸一些Tukey(圖克)的工作成果。
讓我們跳到2001年Leo Breiman寫的一篇論文,他是專注於機器學習算法(在第9章討論)的統計學家。在論文中他描述了數據分析的新文化,即不要注重定義模擬自然的數據模型,而要注重源於自然的算法模型。這種新文化的演變發展源於計算機科學與工程的發展,與傳統統計學有極大的不同(甚至毫無交叉點)。信息時代產生了大量複雜的和充滿噪聲的數據,同時這些實際的疑難問題也催生了新的分析方法。Breiman在論文中概述的富有革命性的想法是,模型應該由他們的預測準確度來驗證,而不是用傳統的統計測試來驗證(盡管傳統測試也不是毫無用處)。
根據文字表麵的意思,你可能將“預測準確度”測試理解為收集今天的數據並確定它如何預測明天的世界,可它卻並非如此。這個想法是將今天的數據分為兩組,用一組數據來生成(或訓練)一個算法,然後用另一組數據去驗證(或測試)這個算法的預測準確度。為了提高這個分析方法的效果,我們可以把數據分成不同的訓練集、測試集,進行生成和驗證,多次重複這個過程。盡管這個分析方法還不適用於小的數據集,但是卻在現代的大數據集中表現十分優良。
當前信息時代的數據分析和過去Rothamsted的農業領域中數據分析有幾個主要的區別。首先,數據樣本大小有極大的差距。“經典”統計技術極大地受限於當時計算機的處理能力(在過去,“計算機”就是雇傭來成天做“計算”的人力),用較小的樣本集來生成和訓練出算法模型是不實際的。而在現代環境中,數據記錄了跨越成千上萬種係統生成的上百萬的數據變量,巨大的樣本量已經成為常態,並非個例。
其次,在許多應用環境和行業中,一個設計得當的實驗是幾乎不可能的(如果不是完全不可能)。你不可能把網絡分為對照組和測試組,你也不能通過僅僅保護一個關鍵應用的一部分來測試Web應用防火牆的效果。這些環境限製帶來的一個後果就是數據具有更高的信噪比。機器學習技術(以及和數據挖掘相關領域的技術)與現代數據的挑戰都在共同發展。
最後,在21世紀,數據統計知識隻是有助於成功的數據分析的眾多技術之一。考慮到這點,下一節會花些時間介紹支持良好的數據分析的各種技能和特性。

最後更新:2017-06-21 17:02:38

  上一篇:go  《數據驅動安全:數據安全分析、可視化和儀表盤》一1.2 獲取數據分析技能
  下一篇:go  《Adobe Illustrator CS4中文版經典教程》—第1課 了解工作區