閱讀926 返回首頁    go 技術社區[雲棲]


MaxCompute 入門

MaxCompute 入門

why

在分析海量數據場景下,由於單台服務器的處理能力限製,數據分析者通常采用分布式計算模式。但分布式的計算模型對數據分析人員提出了較高的要求,且不易維護。使用分布式模型,數據分析人員不僅需要了解業務需求,同時還需要熟悉底層計算模型。

舉個例子來說,當我們需要統計海量的數據時,常規的做法是我們要先搭建hadoop集群,啟動ResourceManager,NodeManager,Namenode等組件,然後部署Hbase。接下來是導入數據到Hbase,最後開始設計並實現MapReduce或者Spark,Flink等job........可能很多人在第一步就已經從入門到放棄了

what

大數據計算服務(MaxCompute,原名 ODPS)是一種快速、完全托管的 GB/TB/PB 級數據倉庫解決方案。MaxCompute 向用戶提供了完善的數據導入方案以及多種經典的分布式計算模型,能夠更快速的解決用戶海量數據計算問題,有效降低企業成本,並保障數據安全。

MaxCompute 主要服務於批量結構化數據的存儲和計算,可以提供海量數據倉庫的解決方案以及針對大數據的分析建模服務。隨著社會數據收集手段的不斷豐富及完善,越來越多的行業數據被積累下來。數據規模已經增長到了傳統軟件行業無法承載的海量數據(百 GB、TB 乃至 PB)級別。

how

接下來就親自實踐一下官方給的bank的例子吧,如建表並導入數據
中提到的,先創建bank_data和result_data兩個表,並導入數據。接下來我們創建工作流去統計不同學曆的單身人士貸款買房的數量。直接cp示例sql後,首先彈出了如下對話框:
xxx
因為選擇的是IO後付費,但不知為何預估費用沒有顯示,不管了,先運行看看,得到如下提示:
not_foung_table
原因是未找到table,仔細看下左側的ODPS表,原來還有個mihe_test的前綴,修改sql再試:

_
這次給出了預估費用
_
運行成功,我們在resu_table中也看到了結果

_

這種拖拽式真的很方便

PS:
1. 貌似通過預估費用就可以預判出sql是否正確了?
2. 在創建項目是隨便寫了個test,提示項目被占用了,但自己的項目列表裏沒有,後來發現,原來項目名稱是全局的,最後加了個前綴解決了。從平台管理的角度來說要保證project name的唯一性無可厚非,但是從用戶角度來看,自己的project應該就是在自己的域下麵,不應該存在被占用的情況,所以是否可以考慮允許用戶隨意指定名稱,隻是管理的時候加個用戶的域的前綴?

最後更新:2017-08-13 22:50:56

  上一篇:go  MaxCompute實踐分析
  下一篇:go  小白用戶MaxCompute數據同步初體驗