基於DataHub采集數據的營銷報告分析
本案例是基於阿裏雲上的DataHub收集營銷數據,並通過MaxCompute對營銷數據進行分析。下麵主要介紹如何用DataHub收集營銷數據,以及在MaxCompute中如何對數據進行分析。
1 DataHub采集數據
阿裏雲的datahub提供了接口可將項目中產生的數據同步到Datahub中,並實時同步到MaxCompute項目對應的表中。下麵介紹如何利用DataHub收集數據。
1.1 創建項目
DataHub地址為https://datahub.console.aliyun.com/datahub。頁麵如下:
點擊創建project按鈕,可創建項目,窗口如下:
輸入名稱和描述之後點擊創建可新建一個項目,刷新後會出現在項目列表中。點擊查看可設置項目的各種信息。
1.2 創建Topic
點擊項目後的查看按鈕,進入如下頁麵:
創建Topic設置同步數據到MaxCompute的數據表中。點擊創建Topic,彈出頁麵如下:
有兩種創建方式,直接創建和導入MaxCompute表結構。第一種方式需要自己填寫表結構,比較麻煩,如果在MaxCompute中已經創建好了表,推薦使用導入MaxCompute表結構。按提示填寫完信息即可創建成功(提示:備注也要寫,否則創建按鈕不可點擊)。創建完成後會出現在Topic列表中。
此時在DataHub中的配置已經完成,點擊Topic後麵的查看可查看配置的各種信息。如下圖:
點擊第二張圖片Connectors中的查看,彈出如下頁麵:
重啟歸檔和暫停歸檔可設置是否將DataHub中的數據同步到MaxCompute中。
注:創建Topic的時候會設置生命周期,如生命周期為三天,表示DataHub隻保存三天的數據。超過三天的數據會被刪除,且不可恢複。因此需經常看看DataHub是否因未知的原因而歸檔失敗了。因為當歸檔失敗時,DataHub沒有失敗自動重啟的功能,此時會一直處於失敗狀態,數據無法歸檔到MaxCompute中,超過三天數據會丟失(也可將生命周期設置的長一些)。
1.3 數據采集
DataHub中提供了很多工具將本地項目中的數據同步到DataHub中。提供的工具如下:
點擊需要用的工具即可進入幫助文檔頁麵,按幫助文檔的步驟進行操作即可。
2 利用MaxCompute進行數據分析
用MaxCompute進行數據分析,首先需要創建odps項目,其產品名如下:
創建成功後的頁麵如下:
點擊項目列表中的項目名即可進入項目空間(需操作不同項目空間的表需要再表前加上項目名,用“.”連接)。項目空間如下:
任務開發:可創建一些定時任務,定時運行一些數據同步任務、機器學習實驗、Sql語句等。
腳本開發:可寫一些Sql語句對項目空間的表進行分析。
函數管理:提供了一些係統自帶的函數。
表查詢:可查看MaxCompute中的所有表,查看表結構及預覽部分數據。
下麵介紹一下本案例的營銷報告所做的工作,主要是新建一個任務,在任務中添加一些sql語句節點,定時每天跑這些任務。
2.1 創建任務
點擊新建,出現如下頁麵:
點擊新建任務,出現如下頁麵:
分為工作流任務和節點任務,節點任務有如圖所示的幾種任務類型,顧名思義,節點任務就是隻能執行一種任務類型的一個任務。而工作流任務是將節點任務連接成一個工作流,可讓多個節點任務一起執行。我們這裏創建工作流任務,其頁麵如下:
創建成功後的頁麵如下:
左邊提供了節點組件。本案例的營銷報告工作流如下:
鼠標選擇節點組件,點擊右鍵會出現設置節點信息的菜單,如下:
任務配置完成後,可在右邊的調度配置中配置調度信息,如下:
各種信息都設置後之後,點擊菜單欄中的保存、提交即可定時執行任務,菜單欄如下:
其中,測試運行可測試任務配置的是否有問題。
2.2 同步數據到RDS數據庫
用MaxCompute平台分析後的數據可同步存放到RDS數據庫中,然後在本地項目即可獲取分析結果。
2.2.1 新建數據源
同步數據到RDS中需要新建數據源,將MaxCompute的項目與RDS數據庫連通起來。數據源在數據集成中創建,頁麵如下:
點擊新建數據源按提示創建即可。
2.2.2 創建數據同步任務
在MaxCompute的項目空間中新建任務,如下:
此時任務類型選擇數據同步。之後按提示填寫即可。
3 總結
本案例是利用DataHub采集營銷數據,然後利用MaxCompute對數據定時進行分析,然後同步到RDS數據庫中,供本地項目獲取結果。
#MaxCompute最佳實踐#
最後更新:2017-08-13 22:47:25