《偉大的計算原理》一大數據
本節書摘來華章計算機《偉大的計算原理》一書中的第2章 ,[美]彼得 J. 丹寧(Peter J. Denning)
克雷格 H. 馬特爾(Craig H. Martell)著 羅英偉 高良才 張 偉 熊瑞勤 譯 更多章節內容可以訪問雲棲社區“華章計算機”公眾號查看。
大數據
大數據是最近出現的另一個時髦概念,其背後隱藏了關於計算的豐富信息。大數據關注如何對互聯網上的海量數據進行分析,從中發現有價值的統計規律和相關性等信息。這種分析可以廣泛應用於各種領域,例如科學、工程、商業、人口普查、執法等。
計算機科學家對數據的存儲、查詢及處理已經進行了長時間的關注,而且很多關注的問題甚至比目前的技術進展還要超前。可惜的是,這些超前的想法由於各種因素的影響被埋沒在曆史的塵埃中,被大眾所遺忘。“大數據”這一術語在很大程度上是新瓶裝舊酒,雖然這一術語確實對很多領域產生了顯著的影響。例如,在商業活動中,商業組織收集海量的客戶相關數據,並利用這些數據去發現市場趨勢、廣告投放對象以及客戶忠誠度等信息。受到公共資金資助的科研項目也被要求對外公開其數據,以方便公眾和其他科研項目能夠對這些數據進行多方麵的利用和分析。警察係統則利用海量的通信信息和信用卡交易信息,從中發現犯罪分子。所有這些領域都開始主動尋求數據科學家、數據分析師以及數據係統設計師來幫助他們進行數據分析工作。
計算機科學家在其中的貢獻主要體現在兩個方麵。一方麵是關於更高效地數據分析方法,另一方麵則是能夠支持海量數據處理的係統或技術架構。例如,Richard Karp(1993)基於組合方法實現了對基因數據片段進行融合從而形成基因組圖譜的高效算法。Tony Chan和Yousef Saad(1986)的研究工作表明,hypercube(一種早期出現的並行計算架構)對於多重網格算法(一類重要的數字計算方法)具有最優的效果,而多重網格算法能夠對大規模數據空間的數學模型進行求解。Jeffrey Dean和Sanjay Ghemawat(2008)設計了MapReduce算法,能夠支持數千個處理器通過並行的方式對海量數據進行處理。
在商業領域中,如何對大規模數據集進行處理和分析一直以來都是一個重要的問題。商業組織會收集關於客戶、庫存、產品製造、財務等方麵的各種數據,這些數據對於一個大型的國際化商業組織的正常運轉具有非常重要的作用。20世紀30年代,一個電子計算機還未出現的年代,IBM靠出售類似卡片分類器和檢索器的簡單設備從數據處理市場獲得了巨大的財富。20世紀50年代,IBM開始向電子數據處理領域發展,轉型成為一家計算機公司。1956年,IBM對外發布了第一個硬盤存儲係統RAMAC 305,受到了廣泛關注。IBM聲稱,任何商業組織都可以將其堆滿倉庫的文件資料轉移到一個小小的硬盤中,進而能夠對數據進行極為高效的處理。隨著數據存儲需求的不斷增長,設計者開始關注如何對數據進行有效的組織從而實現對數據的快速訪問和簡易維護。當時,兩個主流且存在競爭關係的方法分別是綜合數據係統(Integrated Data System,IDS)(Bachman 1973)和關係數據庫係統(Relational Database System,RDS)(Codd 1970,1990)。綜合數據係統具有簡單、快速、實用等特點,能夠在管理大量數據文件的同時隱藏文件在硬盤上的物理結構和位置。關係數據庫係統則基於數學化的集合理論,它具有一個非常清晰的概念模型,但在經過了多年的發展後才實現了與綜合數據係統相當的處理效率。從20世紀70年代開始,研究領域形成了一個關於大規模數據庫(very large databases)的研究團體,並每年召開一次學術會議(VLDB)對相關議題進行討論。
從20世紀50年代開始,計算領域的研究者進入了文檔管理領域:幫助文檔管理員組織數據以實現更加快速的文檔檢索。圖書館是這些信息檢索係統的第一代用戶。研究者開發了模煳查詢係統。例如,用戶可以發出“請查找關於信息檢索的文檔”,而返回的文檔中不一定包含“信息檢索”這個字符串。今天,互聯網就是一個巨大的無結構的存儲係統。在互聯網上進行關鍵詞檢索非常快速但卻不夠準確,因此,有效的互聯網信息檢索仍然是一個困難的問題(Dreyfus 2001)。
Gartner Group將現代的“大數據”定義為4V:數據體量巨大(Volume)、數據的產生速度快(Velocity)、數據的表現格式豐富(Variety)、數據對決策活動具有重要的支持作用(Veracity is important to decisions)。從2014年開始,數據科學的課程或關於數據科學的研究中心在大學和其他研究機構中如雨後春筍般出現。多個領域都涉及其中,例如,來自運籌學和統計學領域的分析師、來自計算機科學和信息係統領域的架構設計師以及來自建模和仿真領域的可視化工程師。這些實踐和研究活動也確立了“數據科學”領域的主要研究問題:尋找對大規模數據集進行處理和分析的科學理論基礎。
表2.4給出了大數據領域涉及的人、問題以及計算基本原理。
最後更新:2017-06-26 12:02:12