Hadoop 2.x (一)
1、三大馬車
MapReduce ,離線計算框架。對海量數據進行處理,支持分布式,大數據分為小數據集,小數據集進行處理(Map),合並統計數據結果(Reduce)。僅適合離線批處理,很好的容錯和擴展,適合簡單批處理。
HDFS,分布式文件係統,存儲海量數據,分布式,保證數據安全性。主節點保存著文件的元數據,存在內存中,用java寫的,同時本地有備份。從節點以塊為單位,保存數據及數據校驗和
HBase,存儲數據的數據庫
YARN,分布式,資源管理框架 ,管理集群硬件等信息,主從,每個節點都有一個yarn的資源子節點,給主節點提供信息,字節點要向主節點申請資源,container。
2、Hadoop 2.x生態搭建
最後更新:2017-05-22 23:31:34