閱讀159 返回首頁    go 阿裏雲 go 技術社區[雲棲]


MaxCompute(原ODPS)開發入門指南——數據開發工具篇

MaxCompute(原ODPS)開發入門指南——數據開發工具篇

寫在最前麵

>>>進入了解更多>>>阿裏雲數加·MaxCompute大數據計算服務.

大家在使用大數據計算服務MaxCompute時,最頭疼就是我現在已有的數據如何快速上雲?我的日誌數據如何采集到MaxCompute上?等等。。。具體詳見《MaxCompute(原ODPS)開發入門指南——數據上雲篇》

SQL Cost

但是數據在MaxCompute上了之後,問題又來了,我怎麼基於上麵進行快速的數據開發,構建大數據倉庫。
本文就重點為大家推薦和介紹開發工具:① 大數據開發套件Data IDE; ② MaxCompute Studio

大數據開發套件Data IDE

大數據開發套件基於MaxCompute強大的計算存儲能力,提供多人協作開發能力且支持百萬級別任務穩定調度係統的在線開發工具,在阿裏巴巴集團內是建設大數據倉庫平台的必備工具。

1.工作流設計器

通過拖拽式進行工作流任務的設計,包括上下遊節點任務的依賴關係。包括SQL、MR、數據同步、機器學習、shell節點任務等。

SQL Cost

SQL Cost

2.數據集成

支持常見的數據源集成,提供可視化方式配置和腳本模式,開發者可以根據自己喜好進行選擇。

SQL Cost

例子:ftp數據同步到MaxCompute的可視化配置界麵。如下:

SQL Cost

例子:ftp數據同步到MaxCompute的腳本開發模式,包括reader和writer。如下:

SQL Cost

3.調度係統

大數據開發套件Data IDE支持調度周期類型:**天、小時、分鍾(5的倍數)、月、周**。也就是說在大數據開發套件中如果做數據集成,最小的數據周期顆粒度為5分鍾一次。具體可以在調度配置中進行設置:

SQL Cost

隻需要進行下拉框配置即可設置工作流任務的調度周期和任務執行時間。

4.運維係統

提供可視化運維界麵,完全解放數據開發運維的問題,包括任務的重跑、kill和補數據等操作。

SQL Cost

5.數據管理

在大數據開發套件中也提供了表級/字段級的數據血緣管理。同時提供整個組織級別的空間表權限管理,包括權限申請、授權和收回。

SQL Cost

詳情可以進入了解大數據開發套件Data IDE

MaxCompute Studio

不同於大數據開發套件Data IDE,MaxCompute Studio是阿裏雲數加MaxCompute提供的本地集成開發環境,MaxCompute Studio 基於 IntelliJ IDEA 平台提供了一套擴展插件,皆在提升MaxCompute 用戶的開發體驗,給到用戶不同開發體驗的多種選擇。

詳情可以進入了解MaxCompute Studio更多信息。

SQL Cost

如下為我本地的開發環境界麵:

SQL Cost

具體的安裝配置和使用可以查看如下短視頻:

MaxCompute Studio安裝配置視頻

總結

工欲善其事必先利其器。在進行數據開發之前需要根據自己的業務情況、個人喜好來選擇正確的大數據開發套件。那麼講這麼多,這兩個具體在數據開發過程中的差異在哪?

【相同點】

兩者都是基於MaxCompute之上的開發者工具,為開發者提供友好的開發體驗。

【差異點】

① 調度係統:Data IDE具有強大且穩定的調度係統,在阿裏集團內部穩定保障數據產生多年。適合數據開發者進行搭建大型數據倉庫。而MaxCompute Studio更偏向於本地開發和數據分析,是沒有自己的調度係統。

② UDF/MR開發:Data IDE本身不支持UDF/UDF源碼開發和編譯,隻接受jar包資源方式上傳的執行;而Studio提供UDF開發MR開發

③ Data IDE大數據開發套件是在線的開發工具,用戶隻需要能夠上網即可進行。而MaxCompute Studio需要安裝在本地,故需要對本地的環境有要求。

SQL Cost

SQL Cost

最後更新:2017-06-12 20:33:47

  上一篇:go  我也說說Emacs吧(6) - Lisp速成
  下一篇:go  6月13日雲棲精選夜讀:【幹貨】iOS 11 短信攔截功能初探