閱讀252 返回首頁    go 汽車大全


《Hadoop與大數據挖掘》一2.1.5 Hadoop生態係統

本節書摘來華章計算機《Hadoop與大數據挖掘》一書中的第2章 ,第2.1.5節,張良均 樊 哲 位文超 劉名軍 許國傑 周 龍 焦正升 著 更多章節內容可以訪問雲棲社區“華章計算機”公眾號查看。

2.1.5 Hadoop生態係統

如圖2-12所示,Hadoop的生態圈其實就是一群動物在狂歡。我們來看看一些主要的框架。


image


(1)HBase
HBase(Hadoop Database)是一個高可靠性、高性能、麵向列、可伸縮的分布式存儲係統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。
(2)Hive
Hive是建立在Hadoop上的數據倉庫基礎構架。它提供了一係列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機製。
(3)Pig
Pig是一個基於Hadoop的大規模數據分析平台,它提供的SQL-LIKE語言叫作Pig Latin。該語言的編譯器會把類SQL的數據分析請求轉換為一係列經過優化處理的Map-Reduce運算。
(4)Sqoop
Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(MySQL、post-gresql等)間進行數據的傳遞,可以將一個關係型數據庫中的數據導入Hadoop的HDFS中,也可以將HDFS的數據導入關係型數據庫中,如圖2-13所示。
(5)Flume
Flume是Cloudera提供的一個高可用、高可靠、分布式的海量日誌采集、聚合和傳輸的係統,Flume支持在日誌係統中定製各類數據發送方,用於收集數據。同時,Flume提供對數據進行簡單處理並寫到各種數據接受方(可定製)的能力,如圖2-14所示。

image


(6)Oozie
Oozie是基於Hadoop的調度器,以XML的形式寫調度流程,可以調度Mr、Pig、Hive、shell、jar任務等。
主要的功能如下。
1)Workflow:順序執行流程節點,支持fork(分支多個節點)、join(將多個節點合並為一個)。
2)Coordinator:定時觸發Workflow。
3)Bundle Job:綁定多個Coordinator。
(7)Chukwa
Chukwa是一個開源的、用於監控大型分布式係統的數據收集係統。它構建在Hadoop 的HDFS和MapReduce框架上,繼承了Hadoop的可伸縮性和魯棒性。Chukwa還包含了一個強大和靈活的工具集,可用於展示、監控和分析已收集的數據。
(8)ZooKeeper
ZooKeeper是一個開放源碼的分布式應用程序協調服務,是Google的Chubby一個開源的實現,是Hadoop和Hbase的重要組件,如圖2-15所示。它是一個為分布式應用提供一致性服務的軟件,提供的功能包括:配置維護、域名服務、分布式同步、組服務等。
(9)Avro
Avro是一個數據序列化的係統。它可以提供:豐富的數據結構類型、快速可壓縮的二進製數據形式、存儲持久數據的文件容器、遠程過程調用RPC。
(10)Mahout
Mahout是Apache Software Foundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。Mahout包含許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用 Apache Hadoop庫,可以有效地將Mahout擴展到雲中。


image

最後更新:2017-06-26 09:31:57

  上一篇:go  《Hadoop與大數據挖掘》一2.2 Hadoop配置及IDE配置
  下一篇:go  《Hadoop與大數據挖掘》一2.1.4 Hadoop資源管理—YARN