2017杭州·雲棲大會---大數據workshop:《雲數據·大計算:海量日誌數據分析與應用》之《數據采集:日誌數據上傳》篇
大數據workshop:《雲數據·大計算:海量日誌數據分析與應用》之《數據采集:日誌數據上傳》篇
實驗背景介紹
了解更多2017杭州·雲棲大會 TechInsight & Workshop.
本手冊為雲棲大會Workshop《雲計算·大數據:海量日誌數據分析與應用》的《數據采集:日誌數據上傳》篇而準備。主要為保障各位學員在workshop當天能夠順暢進行動手實操,那麼本節為學員掌握阿裏雲數據采集的操作和使用。
實驗涉及大數據產品
- 大數據計算服務 MaxCompute
- 大數據開發套件 Data IDE
實驗環境準備
必備條件:首先需要確保自己有阿裏雲雲賬號並已實名認證。詳細點擊:
開通大數據計算服務MaxCompute
若已經開通和購買了MaxCompute,請忽略次步驟直接進入創建Data IDE項目空間。
創建Data IDE項目空間
確保阿裏雲賬號處於登錄狀態。
- step1:點擊進入大數據(數加)管理控製台>大數據開發套件tab頁麵下。
- step2:點擊**創建項目**,跳出創建項目對話框。
- step3:勾選**付費方式**為I/O後付費,填寫**項目名稱**及相關信息,點擊**確定**,直至返回創建成功狀態。
項目名需要字母或下劃線開頭,隻能包含字母下劃線和數字。
【注意】項目名稱全局唯一,建議大家采用自己容易區分的名稱來作為本次workshop的項目空間名稱。
進入大數據開發套件
確保阿裏雲賬號處於登錄狀態。
- step1:點擊進入大數據開發套件**項目列表**。
- step2:點擊已經創建的項目空間名稱,進入大數據開發套件。
新建數據源
根據workshop模擬的場景,需要分別創建FTP數據源和RDS數據源。
1.新建FTP數據源
- step1:點擊**數據集成>數據源管理**,繼而點擊**新增數據源**。
- step2:選擇數據源類型ftp,同時Protocol選擇為sftp,其他配置項如下。
FTP數據源配置信息如下:
- 數據源名稱:ftp_workshop_log
- 數據源描述:ftp日誌文件同步
- 數據源類型:ftp
- 網絡類型:經典網絡
- Protocol:sftp
- Host:10.80.177.33
- Port:22
- 用戶名/密碼:workshop/workshop
- step3:點擊**測試連通性**,連通性測試通過後,點擊**確定**保存配置。
2.新建RDS數據源
- step1:點擊**數據集成>數據源管理**,繼而點擊**新增數據源**。
- step2:選擇數據源類型為**RDS>mysql**並完成相關配置項。
RDS數據源配置信息如下:
- 數據源名稱:rds_workshop_log
- 數據源描述:rds日誌數據同步
- 數據源類型:RDS > Mysql
- RDS實例名稱:rm-bp1z69dodhh85z9qa
- RDS實例購買者ID:1156529087455811
- 數據庫名:workshop
- 用戶名/密碼:workshop/workshop#2017
- step3:點擊**測試連通性**,連通性測試通過後,點擊**確定**保存配置。
創建目標表
- step1:點擊**數據開發**,進入數據開發首頁中點擊**新建腳本**。
- step2:配置文件名稱為create_table_ddl,類型選擇為ODPS SQL,點擊**提交**。
- step3:編寫DDL創建表語句,如下分別創建FTP日誌對應目標表和RDS對應目標表.
DDL語句如下:
--創建ftp日誌對應目標表
DROP TABLE IF EXISTS ods_raw_log_d;
CREATE TABLE ods_raw_log_d (
col STRING
)
PARTITIONED BY (
dt STRING
);
--創建RDS對應目標表
DROP TABLE IF EXISTS ods_user_info_d;
CREATE TABLE ods_user_info_d (
uid STRING COMMENT '用戶ID',
gender STRING COMMENT '性別',
age_range STRING COMMENT '年齡段',
zodiac STRING COMMENT '星座'
)
PARTITIONED BY (
dt STRING
);
- step3:點擊**運行**,直至日誌信息返回成功表示兩張目標表創建成功。
- step4:可以使用desc語法來確認創建表是否成功。
- step5:點擊**保存**,保存編寫的SQL建表語句。
新建工作流任務
- step5:拖拽連線將workshop_start虛節點設置為兩個數據同步節點的上遊節點,如下所示:
- step6:點擊**保存**(或直接快捷鍵ctrl+s)。
配置數據同步任務
1)配置ftp_數據同步節點
- step1:雙擊**ftp_數據同步**節點,進入節點配置界麵。選擇來源:並選擇數據來源事先配置好的ftp數據源,為ftp_workshop_log,文件路徑為/home/workshop/user_log.txt。可以對非壓縮文件進行數據預覽。
數據來源配置項具體說明如下:
- 數據來源:ftp_workshop_ftp
- 文件路徑:/home/workshop/user_log.txt
- 列分隔符:|
- step2:選擇**目標**。點擊**下一步**。
數據流向選擇數據源為odps_first,表名為ods_raw_log_d。分區信息和清理規則都采取係統默認,即清理規則為寫入前清理已有數據,分區按照${bdp.system.bizdate}。
可在預覽保存頁麵中,預覽上述的配置情況,也可以進行修改,確認無誤後,點擊**保存**。
- step5:點擊**返回**工作流麵板。
2)配置rds_數據同步節點
- step1:雙擊**rds_數據同步**節點進入配置界麵。選擇來源:選擇數據來源為rds_workshop_log,表名為ods_user_info_d;切分鍵為使用默認生成列即可。點擊數據預覽,可以看到表中數據樣例。
- step2:進入下一步,選擇目標數據源和表名。
- step3:進入下一步,配置字段映射。默認會同名映射,字段映射關係采用默認即可,如下所示:
- step4:進入下一步,配置作業速率上限。
- step5:在預覽保存頁麵中確認配置信息,無誤後點擊**保存**配置。
配置調度、提交工作流任務
- step1:點擊**調度配置**,配置調度參數
- step2:點擊**提交**,提交已經配置的工作流任務。
- step3:在**變更節點列表**彈出框中點擊**確定提交**。
測試運行工作流任務
- step1:點擊**測試運行**。
- step2:在**周期任務運行提醒**彈出框點擊**確定**。
- step3:在**測試運行**彈出框中,實例名稱和業務日期都保持默認,點擊**運行**。
- step4:在**工作流任務測試運行**彈出框中,點擊**前往運維中心**。
在運維中心可以查看任務視圖,如下圖表示該工作流任務(名稱為workshop_start)正在運行。
直至所有節點都運行返回成功狀態即可(需要點擊運維視窗中的刷新按鈕查看實時狀態)。如下所示:
- step5:右鍵**查看節點運行日誌**,可以看到成功同步數據條數。
確認數據是否成功導入MaxCompute
- step1:返回到create_table_ddl腳本文件中。
- step2:編寫並執行sql語句查看導入ods_raw_log_d記錄數。
- step3:同樣編寫並執行sql語句查看導入ods_user_info_d記錄數。
附錄:SQL語句如下,其中分區鍵需要更新為業務日期,如測試運行任務的日期為20171011,那麼業務日期為20171010.
---查看是否成功寫入MaxCompute
select count(*) from ods_raw_log_d where dt=業務日期;
select count(*) from ods_user_info_d where dt=業務日期;
最後更新:2017-09-27 09:33:30