《Spark大數據分析:核心概念、技術及實踐》導讀
Contents 目 錄
譯者序
前言
致謝
第1章 大數據技術一覽
1.1 Hadoop
1.1.1 HDFS
1.1.2 MapReduce
1.1.3 Hive
1.2 數據序列化
1.2.1 Avro
1.2.2 Thrift
1.2.3 Protocol Buffers
1.2.4 SequenceFile
1.3 列存儲
1.3.1 RCFile
1.3.2 ORC
1.3.3 Parquet
1.4 消息係統
1.4.1 Kafka
1.4.2 ZeroMQ
1.5 NoSQL
1.5.1 Cassandra
1.5.2 HBase
1.6 分布式SQL查詢引擎
1.6.1 Impala
1.6.2 Presto
1.6.3 Apache Drill
1.7 總結15
第2章 Scala編程
2.1 函數式編程
2.1.1 函數
2.1.2 不可變數據結構
2.1.3 一切皆表達式
2.2 Scala基礎
2.2.1 起步
2.2.2 基礎類型
2.2.3 變量
2.2.4 函數
2.2.5 類
2.2.6 單例
2.2.7 樣本類
2.2.8 模式匹配
2.2.9 操作符
2.2.10 特質
2.2.11 元組
2.2.12 Option類型
2.2.13 集合
2.3 一個單獨的Scala應用程序
2.4 總結
第3章 Spark Core
3.1 概述
3.1.1 主要特點
3.1.2 理想的應用程序
3.2 總體架構
3.2.1 worker
3.2.2 集群管理員
3.2.3 驅動程序
3.2.4 執行者
3.2.5 任務
3.3 應用運行
3.3.1 術語
3.3.2 應用運行過程
3.4 數據源
3.5 API
3.5.1 SparkContext
3.5.2 RDD
3.5.3 創建RDD
3.5.4 RDD操作
3.5.5 保存RDD
3.6 惰性操作
3.7 緩存
3.7.1 RDD的緩存方法
3.7.2 RDD緩存是可容錯的
3.7.3 緩存內存管理
3.8 Spark作業
3.9 共享變量
3.9.1 廣播變量
3.9.2 累加器
3.10 總結
最後更新:2017-05-19 16:38:11