《Hadoop與大數據挖掘》一1.2 大數據平台
本節書摘來華章計算機《Hadoop與大數據挖掘》一書中的第1章 ,第1.2節,張良均 樊 哲 位文超 劉名軍 許國傑 周 龍 焦正升 著 更多章節內容可以訪問雲棲社區“華章計算機”公眾號查看。
1.2 大數據平台
大數據平台有哪些呢?
一般認為大數據平台分為兩個方麵,硬件平台和軟件平台。硬件平台一般如Open-Stack、Amazon雲平台、阿裏雲計算等,類似這樣的平台其實做的是虛擬化,即把多台機器或一台機器虛擬化成一個資源池,然後給成千上萬人用,各自租用相應的資源服務等。而軟件平台則是大家經常聽到的,如Hadoop、MapReduce、Spark等,也可以狹義理解為Hadoop生態圈,即把多個節點資源(可以是虛擬節點資源)進行整合,作為一個集群對外提供存儲和運算分析服務。
Hadoop生態圈大數據平台,可以大概分為3種:Apache Hadoop(原生開源Hadoop)、Hadoop Distribution(Hadoop發行版)、Big Data Suite(大數據開發套件)。Apache Hadoop 是原生的,即官網提供的,隻包含基本的軟件;Hadoop Distribution是一些軟件供應商提供的,具有的功能相對多,這個版本有收費版也有免費版,用戶可選;而大數據開發套件則是一些大公司提供的集成方案,提供的功能更多,但是相應的也比較貴。
Apache Hadoop是開源的,用戶可以直接訪問或更改代碼。它是完全分布式的,配置包含用戶權限、訪問控製等,再加上多種生態係統軟件支持,比較複雜。這裏涉及版本不兼容性問題。所以該版本比較適合學習並理解底層細節或Hadoop詳細配置、調優等。
Hadoop Distribution版本簡化了用戶的操作以及開發任務,比如可以一鍵部署等,而且有配套的生態圈支持以及管理監控功能,如業內廣泛使用的HDP、CDH、MapR等平台。CDH是最成型的發行版本,擁有最多的部署案例,而且提供強大的部署、管理和監控工具,其開發公司Cloudera貢獻了自己的可實時處理大數據的Impala項目。HDP是100%開源Apache Hadoop的唯一提供商,其開發公司 Hortonworks開發了很多增強特性並提交至核心主幹,並且Hortonworks為入門者提供了一個非常好的、易於使用的沙盒。MapR為了獲取更好的性能和易用性而支持本地UNIX文件係統而不是HDFS(使用非開源的組件),並且可以使用本地UNIX命令來代替Hadoop命令。除此之外,MapR還憑借諸如快照、鏡像或有狀態的故障恢複之類的高可用性特性來與其他競爭者相區別。當需要一個簡單的學習環境時,就可以選用這個版本,當然,針對一些企業也可以選擇這個版本的收費版,也是有很多軟件支持的。
Big Data Suite(大數據套件)是建立在Eclipse之類的IDE之上的,其附加的插件極大地方便了大數據應用的開發。用戶可以在自己熟悉的開發環境之內創建、構建並部署大數據服務,並且生成所有的代碼,從而做到不用編寫、調試、分析和優化MapReduce代碼。大數據套件提供了圖形化的工具來為你的大數據服務進行建模,所有需要的代碼都是自動生成的,隻需配置某些參數即可實現複雜的大數據作業。當企業用戶需要不同的數據源集成、自動代碼生成或大數據作業自動圖形化調度時,就可以選擇使用大數據套件。
最後更新:2017-06-26 09:01:51