《Spark大數據處理:技術、應用與性能優化》——導讀

前 言
Spark是發源於美國加州大學伯克利分校AMPLab的大數據分析平台,它立足於內存計算,從多迭代批量處理出發,兼顧數據倉庫、流處理和圖計算等多種計算範式,是大數據係統領域的全棧計算平台。Spark當下已成為Apache基金會的頂級開源項目,擁有龐大的社區支持,技術也逐漸走向成熟。
為什麼要寫這本書
大數據還在如火如荼地發展著,突然之間,Spark就火了。還記得最開始接觸Spark技術時資料匱乏,隻有官方文檔和源碼可以作為研究學習的資料。寫一本Spark係統方麵的技術書籍,是我持續了很久的一個想法。由於學習和工作較為緊張,最初隻是通過幾篇筆記在博客中分享自己學習Spark過程的點滴,但是隨著時間的推移,筆記不斷增多,最終還是打算將筆記整理成書,也算是一個總結和分享。
在國外Yahoo!、Intel、Amazon、Cloudera等公司率先應用並推廣Spark技術,在國內淘寶、騰訊、網易、星環等公司敢為人先,並樂於分享。在隨後的發展中,IBM、MapR、Hortonworks、微策略等公司紛紛將Spark融進現有解決方案,並加入Spark陣營。Spark在工業界的應用也呈星火燎原之勢。
隨著Spark技術在國內的大範圍落地、Spark中國峰會的召開,及各地meetup的火爆舉行,開源軟件Spark也因此水漲船高。隨著大數據相關技術和產業的逐漸成熟,公司生產環境往往需要同時進行多種類型的大數據分析作業:批處理、各種機器學習、流式計算、圖計算、SQL查詢等。在Spark出現前,要在一個平台內同時完成以上數種大數據分析任務,就不得不與多套獨立的係統打交道,這需要係統間進行代價較大的數據轉儲,但是這無疑會增加運維負擔。
在1年之前,關注Spark的人和公司不多,由於它包含的軟件種類多,版本升級較快,技術較為新穎,初學者難以在有限的時間內快速掌握Spark蘊含的價值。同時國內缺少一本實踐與理論相結合的Spark書籍,很多Spark初學者和開發人員隻能參考網絡上零星的Spark技術相關博客,自己一點一滴地閱讀源碼和文檔,緩慢地學習Spark。本書也正是為了解決上麵的問題而編寫的。
本書從一個係統化的視角,秉承大道至簡的主導思想,介紹Spark中最值得關注的內容,講解Spark部署、開發實戰,並結合Spark的運行機製及拓展,幫讀者開啟Spark技術之旅。
本書特色
本書是國內首本係統講解Spark編程實戰的書籍,涵蓋Spark技術的方方麵麵。
1)對Spark的架構、運行機製、係統環境搭建、測試和調優進行深入講解,以期讓讀者知其所以然。講述Spark最核心的技術內容,以激發讀者的聯想,進而衍化至繁。
2)實戰部分不但給出編程示例,還給出可拓展的應用場景。
3)剖析BDAS生態係統的主要組件的原理和應用,讓讀者充分了解Spark生態係統。
本書的理論和實戰安排得當,突破傳統講解方式,使讀者讀而不厭。
本書中一些講解實操部署和示例的章節,比較適合作為運維和開發人員工作時手邊的書;運行機製深入分析方麵的章節,比較適合架構師和Spark研究人員,可幫他們拓展解決問題的思路。
識開始學起。
目 錄
第1章 Spark簡介
1.1 Spark是什麼
1.2 Spark生態係統BDAS
1.3 Spark架構
1.4 Spark分布式架構與單機多核
架構的異同
1.5 Spark的企業級應用
1.6 本章小結
第2章 Spark集群的安裝與部署
2.1 Spark的安裝與部署
2.2 Spark集群初試
2.3 本章小結
第3章 Spark計算模型
3.1 Spark程序模型
3.2 彈性分布式數據集
3.3 本章小結
最後更新:2017-07-10 10:32:49
上一篇:
中國新四大發明背後的“數據智能”
下一篇:
初創企業如何做高效持續交付
JavaMail學習筆記(一)、理解郵件傳輸協議(SMTP、POP3、IMAP、MIME)
3.3.1 Cache一致性的基本概念
Visual Studio 2008項目中WinForm窗體圖標顯示為類圖標,隻能打開代碼而無法打開視圖問題解決
關於sql server係統表的詳細說明
PostgreSQL 按需切片的實現(TimescaleDB插件自動切片功能的plpgsql schemaless實現)
【生物識別】阿裏巴巴在移動端核身技術實踐
Log 開關
天氣預報 正則獲取指數信息 group(0)指數 group(1)概要 group(2)詳細指數 代碼
C語言中如何寫一個簡單可移植而又足夠隨機的隨機數生成器
Linux下的多線程編程