閱讀702 返回首頁    go 阿裏雲 go 技術社區[雲棲]


2017杭州·雲棲大會---大數據workshop:《雲數據·大計算:海量日誌數據分析與應用》之《數據采集:日誌數據上傳》篇

大數據workshop:《雲數據·大計算:海量日誌數據分析與應用》之《數據采集:日誌數據上傳》篇

實驗背景介紹

了解更多2017杭州·雲棲大會 TechInsight & Workshop.

本手冊為雲棲大會Workshop《雲計算·大數據:海量日誌數據分析與應用》的《數據采集:日誌數據上傳》篇而準備。主要為保障各位學員在workshop當天能夠順暢進行動手實操,那麼本節為學員掌握阿裏雲數據采集的操作和使用。

實驗涉及大數據產品

實驗環境準備

必備條件:首先需要確保自己有阿裏雲雲賬號並已實名認證。詳細點擊:

開通大數據計算服務MaxCompute

若已經開通和購買了MaxCompute,請忽略次步驟直接進入創建Data IDE項目空間。

  • step1:進入阿裏雲官網並點擊右上角登錄阿裏雲賬號。 登錄
  • step2:點擊進入大數據計算服務產品詳情頁,點擊**立即開通**。 立即開通
  • step3:選擇**按量付費**並點擊**立即購買**。 購買

創建Data IDE項目空間

確保阿裏雲賬號處於登錄狀態。

  • step1:點擊進入大數據(數加)管理控製台>大數據開發套件tab頁麵下。
  • step2:點擊**創建項目**,跳出創建項目對話框。 創建項目
  • step3:勾選**付費方式**為I/O後付費,填寫**項目名稱**及相關信息,點擊**確定**,直至返回創建成功狀態。 配置項目

項目名需要字母或下劃線開頭,隻能包含字母下劃線和數字。
【注意】項目名稱全局唯一,建議大家采用自己容易區分的名稱來作為本次workshop的項目空間名稱。

進入大數據開發套件

確保阿裏雲賬號處於登錄狀態。

  • step1:點擊進入大數據開發套件**項目列表**。

項目列表

  • step2:點擊已經創建的項目空間名稱,進入大數據開發套件。

點擊進入項目

進入大數據開發套件

新建數據源

根據workshop模擬的場景,需要分別創建FTP數據源和RDS數據源。

1.新建FTP數據源
  • step1:點擊**數據集成>數據源管理**,繼而點擊**新增數據源**。

新增數據源

  • step2:選擇數據源類型ftp,同時Protocol選擇為sftp,其他配置項如下。

配置ftp數據源

FTP數據源配置信息如下:

  • 數據源名稱:ftp_workshop_log
  • 數據源描述:ftp日誌文件同步
  • 數據源類型:ftp
  • 網絡類型:經典網絡
  • Protocol:sftp
  • Host:10.80.177.33
  • Port:22
  • 用戶名/密碼:workshop/workshop
  • step3:點擊**測試連通性**,連通性測試通過後,點擊**確定**保存配置。

保存ftp數據源

2.新建RDS數據源
  • step1:點擊**數據集成>數據源管理**,繼而點擊**新增數據源**。

新增數據源

  • step2:選擇數據源類型為**RDS>mysql**並完成相關配置項。

配置RDS數據源

RDS數據源配置信息如下:

  • 數據源名稱:rds_workshop_log
  • 數據源描述:rds日誌數據同步
  • 數據源類型:RDS > Mysql
  • RDS實例名稱:rm-bp1z69dodhh85z9qa
  • RDS實例購買者ID:1156529087455811
  • 數據庫名:workshop
  • 用戶名/密碼:workshop/workshop#2017
  • step3:點擊**測試連通性**,連通性測試通過後,點擊**確定**保存配置。

保存RDS數據源

創建目標表

  • step1:點擊**數據開發**,進入數據開發首頁中點擊**新建腳本**。

新建腳本

  • step2:配置文件名稱為create_table_ddl,類型選擇為ODPS SQL,點擊**提交**。

配置腳本

  • step3:編寫DDL創建表語句,如下分別創建FTP日誌對應目標表和RDS對應目標表.

編寫DDL

DDL語句如下:

--創建ftp日誌對應目標表
DROP TABLE IF EXISTS ods_raw_log_d;

CREATE TABLE ods_raw_log_d (
    col STRING
)
PARTITIONED BY (
    dt STRING
);

--創建RDS對應目標表
DROP TABLE IF EXISTS ods_user_info_d;

CREATE TABLE ods_user_info_d (
    uid STRING COMMENT '用戶ID',
    gender STRING COMMENT '性別',
    age_range STRING COMMENT '年齡段',
    zodiac STRING COMMENT '星座'
)
PARTITIONED BY (
    dt STRING
);
  • step3:點擊**運行**,直至日誌信息返回成功表示兩張目標表創建成功。

運行DDL

  • step4:可以使用desc語法來確認創建表是否成功。

DESC

  • step5:點擊**保存**,保存編寫的SQL建表語句。

保存DDL

新建工作流任務

  • step1:點擊**新建**並選擇**新建任務**。
    新建任務

  • step2:選擇**工作流任務**,調度類型選擇為**周期調度**,其他配置項如下。

配置任務

  • step3:點擊創建。

  • step4:進入工作流配置麵板,並向麵板中拖入一個虛節點(命名為workshop_start)和兩個數據同步節點(分別命名為ftp_數據同步和rds_數據同步):
    新建虛擬節點

新建FTP同步

新建RDS同步

  • step5:拖拽連線將workshop_start虛節點設置為兩個數據同步節點的上遊節點,如下所示:

同步連線

  • step6:點擊**保存**(或直接快捷鍵ctrl+s)。

配置數據同步任務

1)配置ftp_數據同步節點
  • step1:雙擊**ftp_數據同步**節點,進入節點配置界麵。選擇來源:並選擇數據來源事先配置好的ftp數據源,為ftp_workshop_log,文件路徑為/home/workshop/user_log.txt。可以對非壓縮文件進行數據預覽。

配置同步

同步預覽

數據來源配置項具體說明如下:

  • 數據來源:ftp_workshop_ftp
  • 文件路徑:/home/workshop/user_log.txt
  • 列分隔符:|
  • step2:選擇**目標**。點擊**下一步**。

數據流向選擇數據源為odps_first,表名為ods_raw_log_d。分區信息和清理規則都采取係統默認,即清理規則為寫入前清理已有數據,分區按照${bdp.system.bizdate}。

  • step3:配置字段映射。連接要同步的字段。如下:字段映射

  • step4:在下一步操作中配置**通道控製**,作業速率上限為10MB/s,進入下一步。

通道控製

可在預覽保存頁麵中,預覽上述的配置情況,也可以進行修改,確認無誤後,點擊**保存**。

  • step5:點擊**返回**工作流麵板。

返回工作流

2)配置rds_數據同步節點
  • step1:雙擊**rds_數據同步**節點進入配置界麵。選擇來源:選擇數據來源為rds_workshop_log,表名為ods_user_info_d;切分鍵為使用默認生成列即可。點擊數據預覽,可以看到表中數據樣例。

RDS選擇來源

  • step2:進入下一步,選擇目標數據源和表名。

RDS選擇目標

  • step3:進入下一步,配置字段映射。默認會同名映射,字段映射關係采用默認即可,如下所示:

RDS字段映射

  • step4:進入下一步,配置作業速率上限。

RDS通道控製

  • step5:在預覽保存頁麵中確認配置信息,無誤後點擊**保存**配置。

RDS預覽保存

配置調度、提交工作流任務

  • step1:點擊**調度配置**,配置調度參數

調度配置

  • step2:點擊**提交**,提交已經配置的工作流任務。

提交工作流任務

  • step3:在**變更節點列表**彈出框中點擊**確定提交**。

確定提交任務

提交成功後工作流任務處於隻讀狀態,如下:隻讀狀態

測試運行工作流任務

  • step1:點擊**測試運行**。

測試運行

  • step2:在**周期任務運行提醒**彈出框點擊**確定**。

周期任務運行提醒

  • step3:在**測試運行**彈出框中,實例名稱和業務日期都保持默認,點擊**運行**。

測試運行按鈕

  • step4:在**工作流任務測試運行**彈出框中,點擊**前往運維中心**。

在運維中心可以查看任務視圖,如下圖表示該工作流任務(名稱為workshop_start)正在運行。

運維中心測試

直至所有節點都運行返回成功狀態即可(需要點擊運維視窗中的刷新按鈕查看實時狀態)。如下所示:

數據同步測試成功

  • step5:右鍵**查看節點運行日誌**,可以看到成功同步數據條數。

查看同步日誌

日誌界麵

確認數據是否成功導入MaxCompute

  • step1:返回到create_table_ddl腳本文件中。
  • step2:編寫並執行sql語句查看導入ods_raw_log_d記錄數。

數據預覽

  • step3:同樣編寫並執行sql語句查看導入ods_user_info_d記錄數。

附錄:SQL語句如下,其中分區鍵需要更新為業務日期,如測試運行任務的日期為20171011,那麼業務日期為20171010.

---查看是否成功寫入MaxCompute

select count(*) from ods_raw_log_d where dt=業務日期;

select count(*) from ods_user_info_d where dt=業務日期;

最後更新:2017-09-27 09:33:30

  上一篇:go  Go語言與數據庫開發:01-06
  下一篇:go  GTID跳過單個、多個事務的方法