閱讀690 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《大數據管理概論》一導讀

bee4dd8e198adea414fde0a8f011c981e50f0bf1

‖前 言

陳寅恪先生說:“一時代之學術,必有其新材料與新問題。取用此材料,以研求問題,則為此時代學術之新潮流。治學之士,得預於此潮流者,謂之預流(借用佛教初果之名)。其未得預者,謂之未入流。”對今天的信息技術而言,“新材料”即為大數據,而“新問題”則是產生於“新材料”之上的新的應用需求。
對數據庫領域而言,真正的“預流”是Jim Gray和Michael Stone-braker等大師們。十三年前麵對“數據庫領域還能再活躍30年嗎”這一問題,Jim Gray給出的回答是:“不可能。在數據庫領域裏,我們已經非常狹隘。”但他轉而回答到:“SIGMOD這個詞中的MOD表示‘數據管理’。對我來說,數據管理包含很多工作,如收集數據、存儲數據、組織數據、分析數據和表示數據,特別是數據表示部分。針對數據查詢已經做了相當多的工作,但這些工作僅僅圍繞查詢畫了個‘艾普西龍球麵’,而沒有真正超越它。所以,如果我們還像以前一樣把研究與現實脫離開來,還繼續保持狹隘的眼光審視自己所做的研究,數據庫領域將要消失,因為那些研究越來越偏離實際。現在人們已經擁有太多數據,而我對許多人說我們僅僅希望擁有更多的時間。所以,整個數據收集、數據分析和數據簡單化的工作就是能準確地給予人們所要的數據,而不是把所有的數據都提供給他們。這個問題不會消失,而是會變得越來越重要。如果你用一種大而廣的眼光看,數據庫是一個蓬勃發展的領域;如果采用審視的眼光看,現在做的很多研究對30年後的人們不會產生任何影響”(見《數據庫大師訪談錄》)。
最近人們提出了“數據湖”,以區別傳統的“數據庫”技術。兩者的差別到底何在呢?偶讀了費孝通先生所著的《鄉土中國》後,筆者略有所悟。費老分析總結了中國鄉土社會結構,指出中國社會呈現出所謂的“差序格局”,而西方社會呈現的是“團體格局”。傳統數據庫結構關係單一,呈現狀態猶如“團體格局”,即以單個實體為本位,實體之間的關係好比一捆柴,幾根成一把,幾把成一紮,條理清楚,有共同的模式可循。而當下大數據來源廣泛,關係複雜,遠近親疏各不同,這種關係就好比“差序格局”,以語義主題為本位,每類實體都以自我為中心按照與其他實體的語義關係為主線結成網絡,這個網絡按照語義關係的緊密親疏呈現“差序”狀態,就如同湖麵丟下的石子形成的水波紋依中心擴散開去的樣子。這種狀態隨著實體間關係的變化而動態演化,並且每個網絡的大小不同,體現的語義關係也不同,蘊含的價值也不同。
數據庫的“團體格局”本質上是先有模式後有數據,因此數據集成可以采用中介模式(GAV和LAV)以自頂向下的方式實現集成。數據湖的“差序格局”是先有數據後有模式,因此需要按照自底向上的方式以一種大數據融合的方法實現集成。大數據融合即建立數據間、信息間、知識片段間多維度、多粒度的關聯關係,實現更多層麵的知識交互,從而聚斂出數據湖中一個個維係我們社會的“水波紋”(即語義關聯的緊密程度)。
本書集成了大數據融合、存儲、分析、隱私和係統等方麵的工作,其組織結構如下:第1章描述大數據的概念、演變過程和處理模式;第2章提出大數據融合的概念,分析大數據融合的獨特性和任務,給出大數據融合的方法論;第3章介紹大數據存儲與管理方法;第4章描述大數據分析技術,包括實時分析、交互分析、智能分析等;第5章講述大數據涉及的隱私問題,主要介紹不同領域中的隱私保護問題及其隱私保護技術;第6章介紹大數據管理係統,並分析其體係結構;第7章是基於大數據的交叉學科研究,介紹在線用戶行為演化的相關研究。
本書中涉及的研究工作得到眾多科研項目的支持,其中包括:國家自然基金重點項目——“大規模關聯數據管理的關鍵技術研究”(編號:61532010);國家自然基金重點項目——“麵向大數據內存計算的計算機體係結構”(編號:61532016);國家重點研發項目——“科學大數據管理係統”(編號:2016YFB1000600);中國人民大學重點科學研究基金重大基礎研究項目——“社會計算若幹關鍵問題研究”(編號:11XNL010);高等學校博士學科點專項科研基金優先領域課題——“雲計算環境下的在線聚集技術研究”(編號:20130004130001);國家自然基金重大研究計劃重點項目——“大數據開放與治理中的隱私保護關鍵技術研究”(編號:91646203)。
本書架構的安排以及統稿、審校工作由孟小峰組織完成,這裏要特別感謝王春凱、杜治娟、郭崎、楊晨、王碩、葉青青和李勇,在本書的編寫過程中他們給予了極大的幫助。

‖目 錄

叢書前言
前言
作者簡介
第1章 概述
1.1 大數據的基本概念
1.2 大數據的演變過程
1.3 大數據應用
1.4 大數據的處理模式
1.4.1 批處理
1.4.2 流處理
1.5 大數據管理的關鍵技術
1.5.1 大數據融合
1.5.2 大數據分析
1.5.3 大數據隱私
1.5.4 大數據能耗
1.5.5 大數據處理與硬件的協同
1.6 小結
第2章 大數據融合
2.1 引言
2.2 大數據融合的概念
2.2.1 大數據融合需求的獨特性
2.2.2 大數據融合對象的獨特性
2.3 大數據融合的方法論
2.3.1 數據庫視角下的融合
2.3.2 認知計算和人工智能視角下的融合
2.3.3 兩種融合方式的對比分析
2.3.4 大數據融合範式
2.4 數據融合技術
2.4.1 模式/本體對齊
2.4.2 實體鏈接
2.4.3 衝突解決
2.4.4 知識庫自適應發展
2.5 知識融合技術
2.5.1 知識抽象與建模
2.5.2 關係推演
2.5.3 深度知識發現
2.5.4 普適機理的剖析和歸納
2.6 大數據融合的驅動樞紐
2.6.1 智能晶格
2.6.2 遷移學習
2.6.3 數據溯源
2.6.4 D&2V處理
2.7 小結
第3章 大數據存儲
3.1 引言
3.2 大數據存儲與管理方法
3.2.1 基於PCM的主存架構
3.2.2 基於閃存的主存擴展架構
3.2.3 基於多存儲介質的分層存儲架構
3.2.4 分布式存儲與緩存架構
3.3 基於新型存儲的大數據管理
3.3.1 存儲管理
3.3.2 索引管理
3.3.3 查詢處理
3.3.4 事務處理
3.3.5 大數據分析
3.4 大數據處理與存儲一體化技術
3.4.1 一體化架構中的大數據存儲
3.4.2 一體化架構中的大數據處理
3.4.3 一體化架構麵臨的挑戰
3.5 小結
第4章 大數據分析
4.1 引言
4.1.1 傳統的數據分析技術
4.1.2 大數據的分析技術
4.2 大數據的實時分析
4.2.1 實時分析的背景和概念
4.2.2 實時分析技術
4.3 大數據的交互式分析
4.3.1 交互式分析的背景和概念
4.3.2 交互式分析技術
4.4 雲在線聚集
4.4.1 雲在線聚集技術的背景和概念
4.4.2 雲在線聚集的關鍵技術
4.5 大數據的智能分析
4.5.1 大數據分析中的計算智能
4.5.2 智能分析的主要技術
4.6 小結
第5章 大數據隱私
5.1 引言
5.1.1 大數據的類型
5.1.2 隱私特征與類別
5.1.3 大數據的隱私風險
5.2 隱私保護技術
5.2.1 匿名化技術
5.2.2 數據加密技術
5.2.3 差分隱私技術
5.2.4 隱私信息檢索技術
5.3 隱私保護技術的應用
5.3.1 位置大數據中的隱私保護
5.3.2 數據發布和分析中的隱私保護
5.3.3 互聯網搜索中的隱私保護
5.3.4 雲計算中的隱私保護
5.4 大數據隱私管理
5.4.1 隱私管理的目標
5.4.2 主動式隱私管理框架
5.5 小結
第6章 大數據管理係統
6.1 引言
6.2 雲計算:大數據的基礎平台與支撐技術
6.3 批數據與流數據管理係統
6.3.1 批數據管理係統
6.3.2 流數據管理係統
6.3.3 混合處理係統
6.4 SQL、NoSQL與NewSQL係統
6.4.1 SQL類數據庫
6.4.2 NoSQL類數據庫
6.4.3 NewSQL類數據庫
6.5 小結
第7章 基於大數據的交叉學科研究
7.1 引言
7.2 在線用戶行為演化研究
7.2.1 在線用戶行為大數據
7.2.2 在線用戶行為演化
7.3 在線用戶興趣長程演化
7.3.1 理論與方法
7.3.2 在線用戶興趣演化分析
7.4 在線用戶集體注意力流
7.4.1 注意力流網絡
7.4.2 注意力流網絡中的異速標度律
7.4.3 注意力流的應用:Web站點排名
7.5 在線用戶集體注意力流的普適模式
7.5.1 異速標度律
7.5.2 耗散律
7.5.3 引力律
7.5.4 Heaps律
7.6 小結
附錄 大數據思考
附錄A 大數據與小數據
附錄B 數據的起源
附錄C 大數據時代的信息係統
附錄D 數據庫(DB)與大數據(BD)
附錄E 大數據多學科交叉研究
附錄F 創新數據管理研究2.0
附錄G 麵向移動計算與雲計算的數據管理
附錄H 大數據時代的到來:數據空間與閃存數據庫研究
附錄I 隱私保護研究
附錄J 網絡與移動數據管理研究
附錄K 大數據管理基石:Web數據管理
附錄L 大數據管理基石:數據集成
附錄M 從數據庫大師看數據庫發展
參考文獻

最後更新:2017-05-25 12:01:32

  上一篇:go  驅動天文科普,雲計算成“仰望星空”的橋梁
  下一篇:go  首屆中國IT架構大師高峰論壇(十年架構之路匯成一句話!)