閱讀370 返回首頁    go 阿裏雲 go 技術社區[雲棲]


基於DataHub采集數據的營銷報告分析

         本案例是基於阿裏雲上的DataHub收集營銷數據,並通過MaxCompute對營銷數據進行分析。下麵主要介紹如何用DataHub收集營銷數據,以及在MaxCompute中如何對數據進行分析。

1 DataHub采集數據

         阿裏雲的datahub提供了接口可將項目中產生的數據同步到Datahub中,並實時同步到MaxCompute項目對應的表中。下麵介紹如何利用DataHub收集數據。

1.1 創建項目

         DataHub地址為https://datahub.console.aliyun.com/datahub。頁麵如下:

                                                                                         48ff6b829d50ec9a20966e8b7be9b463878cae58

         點擊創建project按鈕,可創建項目,窗口如下:

                                                                                        873d5731c134b4c4a0ccc61633ee195868eb58fc

        輸入名稱和描述之後點擊創建可新建一個項目,刷新後會出現在項目列表中。點擊查看可設置項目的各種信息。

1.2 創建Topic

        點擊項目後的查看按鈕,進入如下頁麵:

                                                                                        ec0dd0b7f91e4bb5d30c56cf8e913366d5344358

        創建Topic設置同步數據到MaxCompute的數據表中。點擊創建Topic,彈出頁麵如下:

                                                                                          f31fad983500de805e76b1f68201106268da06ce

        有兩種創建方式,直接創建和導入MaxCompute表結構。第一種方式需要自己填寫表結構,比較麻煩,如果在MaxCompute中已經創建好了表,推薦使用導入MaxCompute表結構。按提示填寫完信息即可創建成功(提示:備注也要寫,否則創建按鈕不可點擊)。創建完成後會出現在Topic列表中。

        此時在DataHub中的配置已經完成,點擊Topic後麵的查看可查看配置的各種信息。如下圖:

                                                                                    45a33e4e3924ee7d86a245b17268ed1c9ac6dc52

                                                                                    5302460727105378527d0533638b9eed24b12d5e

       點擊第二張圖片Connectors中的查看,彈出如下頁麵:

                                                                                    c8998ebd54db9eb6202f010649ac158352882fe1

        重啟歸檔和暫停歸檔可設置是否將DataHub中的數據同步到MaxCompute中。

注:創建Topic的時候會設置生命周期,如生命周期為三天,表示DataHub隻保存三天的數據。超過三天的數據會被刪除,且不可恢複。因此需經常看看DataHub是否因未知的原因而歸檔失敗了。因為當歸檔失敗時,DataHub沒有失敗自動重啟的功能,此時會一直處於失敗狀態,數據無法歸檔到MaxCompute中,超過三天數據會丟失(也可將生命周期設置的長一些)。

1.3 數據采集

         DataHub中提供了很多工具將本地項目中的數據同步到DataHub中。提供的工具如下:

                                                                                     ee0650476f29f91b9e7c85ebcc63627dde7d67c8

         點擊需要用的工具即可進入幫助文檔頁麵,按幫助文檔的步驟進行操作即可。

2 利用MaxCompute進行數據分析

         用MaxCompute進行數據分析,首先需要創建odps項目,其產品名如下:

                                                                                      7dfb2e48e4116a3607d3fb7c6399ec3c3ec179cc

       創建成功後的頁麵如下:

                                                                                  4352a3d196dc453f103c4e903bcda6bd3d252bc5

       點擊項目列表中的項目名即可進入項目空間(需操作不同項目空間的表需要再表前加上項目名,用“.”連接)。項目空間如下:

                                                                                  c4d1d2b4eb56969ec089ce0e68a71aabc965ecc7

任務開發:可創建一些定時任務,定時運行一些數據同步任務、機器學習實驗、Sql語句等。

腳本開發:可寫一些Sql語句對項目空間的表進行分析。

函數管理:提供了一些係統自帶的函數。

表查詢:可查看MaxCompute中的所有表,查看表結構及預覽部分數據。

       下麵介紹一下本案例的營銷報告所做的工作,主要是新建一個任務,在任務中添加一些sql語句節點,定時每天跑這些任務。

2.1 創建任務

         點擊新建,出現如下頁麵:

                                                                                 17e3e56be02a942963d44aaf1a3d5fc44c72d29c

        點擊新建任務,出現如下頁麵:

                                                                                 dcaa6806d81bb797c4d20a7846cd42c60eb10086

       分為工作流任務和節點任務,節點任務有如圖所示的幾種任務類型,顧名思義,節點任務就是隻能執行一種任務類型的一個任務。而工作流任務是將節點任務連接成一個工作流,可讓多個節點任務一起執行。我們這裏創建工作流任務,其頁麵如下:

                                                                              18243aef1909e3b76c95e9eeb36beb19cb31b2ed

        創建成功後的頁麵如下:

                                                                              ab1dd1331969bd2e5d3ae6aed23a7e3280a72e9b

         左邊提供了節點組件。本案例的營銷報告工作流如下:

                                                                                f8affb5843c76b93e03c39eb0a8f0a3e1fa64b82

         鼠標選擇節點組件,點擊右鍵會出現設置節點信息的菜單,如下:

                                                                       45af002b07b8e69c8d8718c0f02941c1ff6f3d74

         任務配置完成後,可在右邊的調度配置中配置調度信息,如下:

                                                                           4782866ec29cae10b540c688e137812794f0dfb7

        各種信息都設置後之後,點擊菜單欄中的保存、提交即可定時執行任務,菜單欄如下:

                                                                         b2cc69c2866652933fedcd4b516db3484e391d9f

        其中,測試運行可測試任務配置的是否有問題。

2.2 同步數據到RDS數據庫

         用MaxCompute平台分析後的數據可同步存放到RDS數據庫中,然後在本地項目即可獲取分析結果。

2.2.1 新建數據源

         同步數據到RDS中需要新建數據源,將MaxCompute的項目與RDS數據庫連通起來。數據源在數據集成中創建,頁麵如下:

                                                                        ad8aa0851e70e41afc64f155299a283036a2e82a

         點擊新建數據源按提示創建即可。

2.2.2 創建數據同步任務

         在MaxCompute的項目空間中新建任務,如下:

                                                                           dcaa6806d81bb797c4d20a7846cd42c60eb10086

        此時任務類型選擇數據同步。之後按提示填寫即可。

3 總結

         本案例是利用DataHub采集營銷數據,然後利用MaxCompute對數據定時進行分析,然後同步到RDS數據庫中,供本地項目獲取結果。

#MaxCompute最佳實踐#





最後更新:2017-08-13 22:47:25

  上一篇:go  入門篇:函數計算中角色和訪問策略的講解
  下一篇:go  推薦係統-基於矩陣分解的LFM模型