《雲數據管理:挑戰與機遇》2.1 導讀
大數據和雲計算是研究文獻和主流媒體中大量使用的兩個術語。當我們走進雲計算和數據洪流的時代,經常被問到的一個問題是:雲數據管理中的新挑戰是什麼?本書就是由我們尋求回答這個問題發展而來,並使我們自己對這一問題有了更為深入的理解。本書首先介紹了一些初步的綜述性論文,這些綜述論文總結了適合鍵–值存儲係統的主要設計原則,這些係統如穀歌的Bigtable、亞馬遜的Dynamo和雅虎的PNUTS,通過在一個數據中心或者有可能在世界不同地方的多個數據中心中部署成千上萬台服務器來達到前所未有的規模。由於這一領域引起了學術界和工業界越來越多的研究人員的關注,該領域從鍵–值存儲進一步發展到支持更豐富功能的可擴展數據存儲,如事務或除簡單鍵–值模型之外的模式。因此,我們將3個係統的簡單綜述在新加坡舉辦的VLDB 2010會議和在瑞典烏普薩拉舉辦的EDBT 2011會議擴展成一個3小時長的教程。後來又有很多相關資料的介紹,因為這些教程以及我們對該問題的理解也隨時間的推移發生了改變。其間也提出了更多的係統。本書對我們這些年課程的學習以及來自於我們講座的很多有趣的討論進行了總結。
與傳統數據管理時代事務處理與數據分析係統之間的劃分一樣,雲數據管理也有一個類似的劃分。一種是麵向數據存儲和服務於互聯網應用的係統。這些係統與經典的事務處理係統類似,盡管有很多不同之處。另一種是數據分析係統,類似於數據倉庫,通過分析大量數據來從中獲得知識和智能。隨著企業不斷地搜集用戶數據,並對來自於多種數據源的數據進行合並,基於MapReduce的係統,如Hadoop及其生態係統,使得數據分析和數據倉庫更加大眾化。雲數據分析方麵有幾十個開源產品和數百篇相關領域的研究論文,已經成為一個熱門的研究領域。因為企業試圖從它們的數據庫中獲得新的見解,從而取得競爭優勢,該領域會得到進一步擴展。
我們的研究、分析和調查主要關注於第一類係統,即數據管理和存儲係統。因此,本書也主要關注這些係統。本書將深入探討在設計這些更新密集型係統中存在的挑戰,這些更新密集型係統必須對訪問數據庫小部分數據的查詢和更新提供快速響應。在該類中,我們進一步將研究劃分成兩類係統。在第一類中,挑戰在於對係統進行擴展,從而服務於擁有幾千個並發請求和數百GB到數百TB頻繁訪問數據的大型應用。第二類包括這樣一種情況,雲服務提供商必須有效地服務於數十萬個應用程序,每個應用程序的查詢負載和資源需求都比較少。
致謝
本書源自於幾年前我們試圖更好地理解雲數據管理設計領域的願望。結果就有了我們對該設計領域的不斷深入的理解。這得益於我們周圍有很多人提供了幫助,人數太多,以至於這裏無法一一列出。但是,我們想借此機會感謝那些在本書中發揮了重要作用的人。
首先,我們想感謝編輯M. Tamer zsu,他給了我們寫這本書的機會,並在整個過程中為我們提供了持續的支持和反饋。他認真閱讀了大量的早期草稿,並給出了很多意見和修正,大大完善了本書。Diane Cerra作為我們的出版商Morgan & Claypool的執行編輯,為我們提供了必要的行政支持。沒有來自Tamer和Diane的幫助與支持,本書將無法出版。
本書中的大部分材料都以不同的形式在世界各地的不同地點呈現過。在這些演示過程中,我們收到了許多與會者的反饋,這些反饋直接或間接地改善了我們的演示,並經常會給我們提供不同的角度。我們非常感謝所有提供這些慷慨反饋的人。我們也從與Shyam Anthony、Philip Bernstein、Selcuk Candan、Aaron Elmore、Wen-syan Li、Klaus Schauser和Junichi Tatemura的大量討論中獲益匪淺,在此對他們表示感謝。我們還要感謝2008~2012年間學習研究生課程(CMPSC 271和CMPSC 274)的所有研究生的貢獻。
最後,我們要感謝我們各自的家庭,他們容忍我們為準備本書和相關資料而花費了無數個小時。沒有他們的一貫支持和理解,本書也不會有麵世的一天。
Divyakant Agrawal、Sudipto Das和Amr El Abbadi
最後更新:2017-05-19 12:05:10