閱讀753 返回首頁    go 阿裏雲 go 技術社區[雲棲]


Hadoop生態係統工具指南

img

Hadoop工具生態係統生長迅速,以下是IT經理網整理的最新Hadoop工具資源,供IT經理日常參考,歡迎讀者來信或留言補充。

Hadoop

Apache hadoop項目負責開發可靠的、可擴展的分布式計算開源軟件。

網址:hadoop.apache.org

 

HDFS

分布式文件係統提供高速的應用數據訪問。

網址:hadoop.apache.org/hdfs/

 

MapReduce

在計算機集群上進行大數據分布式處理的軟件框架。

 

亞馬遜Elastic MapReduce

亞馬遜Elastic MapReduce是一種web服務,能讓企業、研究人員、數據分析師和開發者低成本快速處理海量數據。該服務是托管於亞馬遜彈性雲(EC2)和亞馬遜S3存儲雲上的web大規模基礎架構上的Hadoop框架。

網址:aws.amazon.com/elasticmapreduce/

 

Cloudera Hadoop發行版(CDH)

Cloudera的Hadoop發行版(CDH)為基於Hadoop的數據管理平台樹立了新的標杆。

網址:cloudera.com/hadoop

 

ZooKeeper

針對分布式應用的高性能協調服務。ZooKeeper為配置信息、命名提供集中化管理服務,支持分布式同步,並提供群組服務。

網址:hadoop.apache.org/zookeeper/

 

HBase

可擴展的分布式數據庫,支持大表(big table)的結構化數據存儲。

網址:hbase.apache.org

 

Avro

數據序列化係統。與ThriftProtocolbuffers類似。

avro.apache.org

 

Sqoop

Sqoop(SQL-to-Hadoop),是命令行工具,有以下功能:

    • ● 將單獨的表或者整個數據庫導入HDFS文件
    • ● 通用Java庫支持與導入數據的互動
    • ● 支持將SQL數據庫直接導入你的Hive數據倉庫

網址:cloudera.com/downloads/sqoop/

 

Flume

Flume是一個分布式高可靠的大數據傳輸服務。

網址:archive.cloudera.com/cdh/3/flume/

 

Hive

Hive是基於Hadoop的數據倉庫基礎架構,提供的工具能進行簡便的數據匯總、ad-hoc查詢,以及對存儲在Hadoop文件中的大數據集的分析。Hive提供一種簡單易用的查詢語言——Hive QL,該語言基於SQL,這意味著那些對SQL熟悉的用戶可以像使用SQL數據庫一樣查詢大數據。Hive QL還雲尋傳統的map/reduce程序員插入他們自己的mappers和reducers,進行更為複雜的分析。

網址:hive.apache.org

 

Pig

Pig是一種高階數據流語言和並行計算的執行框架。Apache Pig是一個大數據集分析平台,提供了一種表達數據分析程序的高階語言,以及評估這些程序的基礎架構。Pig程序的最大優點是其架構能為底層並行化進行調整,從而能處理非常大規模的數據集。

網址:pig.apache.org

 

Oozie

Oozie 是一個開源的工作流和協作服務引擎,為管理Apache hadoop數據處理任務提供工作流/協作服務。Oozie 是可擴展的、可伸縮的麵向數據的服務,運行在Hadoop 平台上,協調Hadoop上運行的不同任務(包括HDFS,Pig和MapReduce)。

Oozie 包括一個離線的Hadoop處理的工作流解決方案,以及一個查詢處理 API。

網址:yahoo.github.com/oozie

 

Cascading

Cascading是一個查詢API和查詢計劃器,被用於定義和執行Hadoop集群上運行的複雜、可自由擴展、可容錯的數據處理工作流。

網址:cascading.org

 

Cascalog

Cascalog一種能使在Hadoop上使用Clojure處理數據變得簡單直觀的工具。Cascalog綜合了兩大頂尖技術:Clojure和Hadoop,同時讓Datalog煥發青春。Cascalog的特點是高性能、靈活和魯棒。

網址:github.com/nathanmarz/cascalog

 

HUE

Hue是運營和開發Hadoop應用的圖形化用戶界麵。Hue程序被整合到一個類似桌麵的環境,以web程序的形式發布,對於單獨的用戶來說不需要額外的安裝。

網址:archive.cloudera.com/cdh3/hue   更多信息:Cloudera blog

 

Chukwa

Chukwa是麵向大型分布式係統的數據采集係統。Chukwa基於Hadoop HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴展性和容錯性。Chukwa還提供一個靈活而強大的工具包,用於顯示、監控和分析分析結果,更好地利用所收集的數據。

網址:incubator.apache.org/chukwa/

 

Mahout

一種可擴展的機器學習和數挖掘庫。

網址:mahout.apache.org



最後更新:2017-04-03 16:48:51

  上一篇:go 生、死、騰訊、360
  下一篇:go HDU 2222 AC自動機