閱讀321 返回首頁    go 阿裏雲 go 技術社區[雲棲]


阿裏雲E-MapReduce產品簡介

產品概述:

阿裏雲 Elastic MapReduce(E-MapReduce) 是運行在阿裏雲平台上的一種大數據處理的係統解決方案。E-MapReduce 構建於阿裏雲雲服務器 ECS 上,基於開源的 Apache Hadoop 和 Apache Spark,讓用戶可以方便地使用Hadoop和Spark生態係統中的其他周邊係統(如 Apache Hive、Apache Pig、HBase 等)來分析和處理自己的數據。不僅如此,用戶還可以通過E-MapReduce將數據非常方便的導出和導入到阿裏雲其他的雲數據存儲係統和數據庫係統中,如阿裏雲 OSS、阿裏雲 RDS 等。

E-MapReduce 的用途

當用戶想要使用 Hadoop、Spark 等分布式處理係統的時候,通常需要經曆如下的步驟:

1.評估業務特點
2.選擇機器類型
3.采購機器
4.準備硬件環境
5.安裝操作係統
6.部署 Hadoop 和 Spark 等 app
7.啟動集群
8.編寫應用程序
9.運行作業
10.獲取數據等一係列的步驟
在這些流程中,真正跟用戶的應用邏輯相關的是從第8步才開始,第1-7步的各項工作都是前期的準備工作,通常這個前期工作都非常冗長繁瑣。而 E-MapReduce 提供了集群管理工具的集成解決方案,如主機選型、環境部署、集群搭建、集群配置、集群運行、作業配置、作業運行、集群管理、性能監控等。

通過使用 E-MapReduce,用戶可以從集群構建各種繁瑣的采購、準備、運維等工作中解放出來,隻關心自己應用程序的處理邏輯即可。此外,E-MapReduce 還給用戶提供了靈活的搭配組合方式,用戶可以根據自己的業務特點選擇不同的集群服務。例如,如果用戶的需求是對數據進行日常統計和簡單的批量運算,則可以隻選擇在 E-MapReduce 中運行 Hadoop 服務;而如果用戶還需要流式計算和實時計算的需求,則可以在 Hadoop 服務基礎上再加入 Spark 服務。

E-MapReduce 的組成

E-MapReduce 最核心也是用戶直接麵對的組件是集群。一個 E-MapReduce 集群是由一個或多個阿裏雲 ECS instance 組成的 Hadoop 和 Spark 集群。以 Hadoop 為例,在每一個 ECS instance 上,通常都運行了一些 daemon 進程(如 namenode、datanode、resoucemanager 和 nodemanager),這些 daemon 進程就組成了 Hadoop 集群。運行 namenode 和 resourcemanager 的節點被稱為 master 節點,而運行 datanode 和 nodemanager 的節點被稱為 slave 節點。
例如,下圖表示了一個包含1個 master 節點和3個 slave 節點的 E-MapReduce 集群:

screenshot

產品優勢

與自建集群相比,E-MapReduce 能給您提供相對方便可控的手段,從各方麵管理自己的集群。此外,它還具有以下優勢:

- 易用性

您可簡單選擇所需 ECS 機型(CPU、內存)與磁盤,並選擇所需的軟件,進行自動化部署。

您可以根據自己或數據源所處的地理位置申請對應位置的集群資源。目前阿裏雲 ECS 支持的區域包括華東 1、華東 2、華北 1、華北 2、華南 1、新加坡、香港、美東 1、美西 1 等區域。E-MapReduce 支持的區域包括華北 2、華東 1、華東 2 和華南 1,後續會陸續開放到阿裏雲 ECS 支持的所有區域。

- 低價

您可以按需創建集群,即離線作業運行結束就可以釋放集群,還可以在需要時動態地增加節點。

- 深度整合

與阿裏雲其它產品如 OSS、MNS、RDS、MaxCompute 等深度整合,使其可作為 E-MapReduce 產品中 Hadoop/Spark 計算引擎的輸入源或者輸出目的地。

- 安全

E-MapReduce 整合了阿裏雲 RAM 資源權限管理係統,通過主子賬號對服務權限進行隔離。

基礎架構

E-MapReduce 的產品架構如下圖所示:

screenshot

從上圖可以看出,E-MapReduce 集群基於 Hadoop 的生態環境來搭建,同時可以跟阿裏雲的對象存儲服務(OSS),雲數據庫(RDS)等雲服務進行無縫數據交換,方便您將數據在多個係統之間進行共享和傳輸,以滿足不同業務類型的訪問需要。

使用場景

E-MapReduce 集群適用場景很多。簡單說來,Hadoop ecosystem 以及 Spark 能夠支持的場景,E-MapReduce 都可以支持。因為 E-MapReduce 本質就是 Hadoop 和 Spark 的集群服務,您完全可以將其使用的阿裏雲 ECS 主機視為自己專屬的物理主機。以下示例列出了 E-MapReduce 使用的經典場景。

批量數據處理


screenshot

Ad hoc 數據分析查詢


screenshot

海量數據在線服務


screenshot

流式數據處理


screenshot

最後更新:2017-08-31 23:32:56

  上一篇:go  阿裏雲創建E-MapReduce 1 快速開始
  下一篇:go  HiTSDB 時序數據庫技術架構和產品解析