MaxCompute 入門

why

在分析海量數據場景下，由於單台服務器的處理能力限製，數據分析者通常采用分布式計算模式。但分布式的計算模型對數據分析人員提出了較高的要求，且不易維護。使用分布式模型，數據分析人員不僅需要了解業務需求，同時還需要熟悉底層計算模型。

舉個例子來說，當我們需要統計海量的數據時，常規的做法是我們要先搭建hadoop集群，啟動ResourceManager，NodeManager，Namenode等組件，然後部署Hbase。接下來是導入數據到Hbase，最後開始設計並實現MapReduce或者Spark，Flink等job........可能很多人在第一步就已經從入門到放棄了

what

大數據計算服務（MaxCompute，原名 ODPS）是一種快速、完全托管的 GB/TB/PB 級數據倉庫解決方案。MaxCompute 向用戶提供了完善的數據導入方案以及多種經典的分布式計算模型，能夠更快速的解決用戶海量數據計算問題，有效降低企業成本，並保障數據安全。

MaxCompute 主要服務於批量結構化數據的存儲和計算，可以提供海量數據倉庫的解決方案以及針對大數據的分析建模服務。隨著社會數據收集手段的不斷豐富及完善，越來越多的行業數據被積累下來。數據規模已經增長到了傳統軟件行業無法承載的海量數據(百 GB、TB 乃至 PB)級別。

how

接下來就親自實踐一下官方給的bank的例子吧，如建表並導入數據
中提到的，先創建bank_data和result_data兩個表，並導入數據。接下來我們創建工作流去統計不同學曆的單身人士貸款買房的數量。直接cp示例sql後，首先彈出了如下對話框：

因為選擇的是IO後付費，但不知為何預估費用沒有顯示，不管了，先運行看看，得到如下提示：

原因是未找到table,仔細看下左側的ODPS表，原來還有個mihe_test的前綴，修改sql再試：

這次給出了預估費用

運行成功，我們在resu_table中也看到了結果

這種拖拽式真的很方便

PS:
1. 貌似通過預估費用就可以預判出sql是否正確了？
2. 在創建項目是隨便寫了個test，提示項目被占用了，但自己的項目列表裏沒有，後來發現，原來項目名稱是全局的，最後加了個前綴解決了。從平台管理的角度來說要保證project name的唯一性無可厚非，但是從用戶角度來看，自己的project應該就是在自己的域下麵，不應該存在被占用的情況，所以是否可以考慮允許用戶隨意指定名稱，隻是管理的時候加個用戶的域的前綴？

最後更新：2017-08-13 22:50:56

MaxCompute 入門

MaxCompute 入門

why

what

how

上一篇： MaxCompute實踐分析

下一篇：小白用戶MaxCompute數據同步初體驗

相關內容

熱門內容

最新內容

MaxCompute 入門

MaxCompute 入門

why

what

how

上一篇： MaxCompute實踐分析

下一篇： 小白用戶MaxCompute數據同步初體驗

相關內容

熱門內容

最新內容

下一篇：小白用戶MaxCompute數據同步初體驗