MaxCompute 入門
MaxCompute 入門
why
在分析海量數據場景下,由於單台服務器的處理能力限製,數據分析者通常采用分布式計算模式。但分布式的計算模型對數據分析人員提出了較高的要求,且不易維護。使用分布式模型,數據分析人員不僅需要了解業務需求,同時還需要熟悉底層計算模型。
舉個例子來說,當我們需要統計海量的數據時,常規的做法是我們要先搭建hadoop集群,啟動ResourceManager,NodeManager,Namenode等組件,然後部署Hbase。接下來是導入數據到Hbase,最後開始設計並實現MapReduce或者Spark,Flink等job........可能很多人在第一步就已經從入門到放棄了
what
大數據計算服務(MaxCompute,原名 ODPS)是一種快速、完全托管的 GB/TB/PB 級數據倉庫解決方案。MaxCompute 向用戶提供了完善的數據導入方案以及多種經典的分布式計算模型,能夠更快速的解決用戶海量數據計算問題,有效降低企業成本,並保障數據安全。
MaxCompute 主要服務於批量結構化數據的存儲和計算,可以提供海量數據倉庫的解決方案以及針對大數據的分析建模服務。隨著社會數據收集手段的不斷豐富及完善,越來越多的行業數據被積累下來。數據規模已經增長到了傳統軟件行業無法承載的海量數據(百 GB、TB 乃至 PB)級別。
how
接下來就親自實踐一下官方給的bank的例子吧,如建表並導入數據
中提到的,先創建bank_data和result_data兩個表,並導入數據。接下來我們創建工作流去統計不同學曆的單身人士貸款買房的數量。直接cp示例sql後,首先彈出了如下對話框:
因為選擇的是IO後付費,但不知為何預估費用沒有顯示,不管了,先運行看看,得到如下提示:
原因是未找到table,仔細看下左側的ODPS表,原來還有個mihe_test的前綴,修改sql再試:
這次給出了預估費用
運行成功,我們在resu_table中也看到了結果
這種拖拽式真的很方便
PS:
1. 貌似通過預估費用就可以預判出sql是否正確了?
2. 在創建項目是隨便寫了個test,提示項目被占用了,但自己的項目列表裏沒有,後來發現,原來項目名稱是全局的,最後加了個前綴解決了。從平台管理的角度來說要保證project name的唯一性無可厚非,但是從用戶角度來看,自己的project應該就是在自己的域下麵,不應該存在被占用的情況,所以是否可以考慮允許用戶隨意指定名稱,隻是管理的時候加個用戶的域的前綴?
最後更新:2017-08-13 22:50:56
上一篇:
MaxCompute實踐分析
下一篇:
小白用戶MaxCompute數據同步初體驗
RDC容器構建和部署服務新功能上線
如何關閉網站,不影響微信公眾平台在啊裏雲服務器正常運行
svn插件安裝
tomcat 5.5 Cannot create JDBC driver of class '' for connect URL 'null' 配置數據源錯誤解決辦法
J2EE部署項目至Tomcat報錯:Unable to read TLD "META-INF/c.tld"
C++編程規範之29:考慮重載,以避免隱式類型轉換
係統安全攻防戰:DLL注入技術詳解
詳解TP-Link路由器設置(圖解)
#pragma用法
永和維護---從問題中得到的一些感受