《循序漸進學Spark 》導讀
目 錄
前 言
第1章 Spark架構與集群環境
1.1 Spark概述與架構
1.1.1 Spark概述
1.1.2 Spark生態
1.1.3 Spark架構
1.2 在Linux集群上部署Spark
1.2.1 安裝OpenJDK
1.2.2 安裝Scala
1.2.3 配置SSH免密碼登錄
1.2.4 Hadoop的安裝配置
1.2.5 Spark的安裝部署
1.2.6 Hadoop與Spark的集群複製
1.3 Spark 集群試運行
1.4 Intellij IDEA的安裝與配置
1.4.1 Intellij的安裝
1.4.2 Intellij的配置
1.5 Eclipse IDE的安裝與配置
1.6 使用Spark Shell開發運行Spark程序
1.7 本章小結
第2章 Spark 編程模型
2.1 RDD彈性分布式數據集
2.1.1 RDD簡介
2.1.2 深入理解RDD
2.1.3 RDD特性總結
2.2 Spark程序模型
2.3 Spark算子
2.3.1 算子簡介
2.3.2 Value型Transmation算子
2.3.3 Key-Value型Transmation算子
2.3.4 Action算子
2.4 本章小結
第3章 Spark機製原理
3.1 Spark應用執行機製分析
3.1.1 Spark應用的基本概念
3.1.2 Spark應用執行機製概要
3.1.3 應用提交與執行
3.2 Spark調度機製
3.2.1 Application的調度
3.2.2 job的調度
3.2.3 stage(調度階段)和TasksetManager的調度
3.2.4 task的調度
3.3 Spark存儲與I/O
3.3.1 Spark存儲係統概覽
3.3.2 BlockManager中的通信
3.4 Spark通信機製
3.4.1 分布式通信方式
3.4.2 通信框架AKKA
3.4.3 Client、Master和Worker之間的通信
3.5 容錯機製及依賴
3.5.1 Lineage(血統)機製
3.5.2 Checkpoint(檢查點)機製
3.6 Shuffle機製
3.6.1 什麼是Shuffle
3.6.2 Shuffle曆史及細節
3.7 本章小結
最後更新:2017-05-19 15:32:04