DRDS到ODPS數據遷移指南
數據同步節點任務是阿裏雲大數據平台對外提供的穩定高效、彈性伸縮的數據同步雲服務。DRDS到ODPS數據遷移采用CDP的方式同步數據。
開始DRDS到ODPS數據遷移
1. 創建源和目標庫表結構
初次在同步數據前需要在源庫和目標庫創建好相應的表結構。
2. 配置數據源
2.1源數據源配置-DRDS
1.登錄Base管控台,單擊頂部菜單欄中的項目管理,並選擇相應的項目。
2.進入數據源配置,單擊新增數據源。
3. 在新建數據源彈出框中,選擇數據源類型為DRDS;
配置項說明(上圖中帶*的都必須輸入相應的信息):
l 數據源名稱:由英文字母、數字、下劃線組成且需以字符或下劃線開頭,長度不超過60個字符。
l 數據源描述:對數據源進行簡單描述,不得超過80個字符。
l 數據源類型:當前選擇的數據源類型DRDS。
l jdbcUrl:JDBC連接信息,格式為:jdbc://mysql://serverIP:Port/database。
l 用戶名/密碼:DRDS庫對應的用戶名和密碼。
4. 單擊測試連通性。
5. 測試連通性通過後,單擊確定。
2.2目標數據源配置-ODPS
1.登錄Base管控台,單擊頂部菜單欄中的項目管理,並選擇相應的項目。
2. 進入數據源配置,單擊新增數據源。
3. 在新建數據源彈出框中,選擇數據源類型為 ODPS。
配置項說明(上圖中帶*的都必須輸入相應的信息):
l 數據源名稱:由英文字母、數字、下劃線組成且需以字符或下劃線開頭,長度不超過60個字符。
l 數據源描述:對數據源進行簡單描述,不得超過80個字符。
l 數據源類型:當前選擇的數據源類型ODPS。
l ODPS Endpoint:默認隻讀。從係統配置中自動讀取。
l ODPS項目名稱:與計算引擎配置中的ODPS項目名稱相同。
l AccessID/AceessKey:訪問密鑰 AccessKey(AK) 相當於登錄密碼。
4. 單擊測試連通性。
5. 測試連通性通過後,單擊確定。
3.創建同步任務
1.  新建數據同步節點,如下圖所示:
新建任務配置項說明(帶*項都需要輸入或選擇):
名稱: 起一個好識別的名稱,符合命名規則即可;
任務類型為工作流任務可一次性調度或周期調度,節點任務隻能是周期調度;
類型:選擇數據同步;
選擇目錄:根據任務開發,選擇您所使用的文件夾中要同步的任務。
2.
選擇數據來源和目標
其中:數據來源指的是數據源,數據流向指的是目標數據源。
3. 字段配置
當源表和目標表結構一致時源和目標表字段默認是一一對應的關係,不用做任何設置。如下圖所示:
4.抽取控製和加載控製
• 抽取控製
全量遷移數據過濾為空,增量同步時需要增加時間過濾條件。
• 加載控製
清理規則需要根據數據要求配置,默認是寫入前清理已有數據。
寫入前清理已有數據寫入前保留已有數據
5.流量與出錯控製
作業速率上限是指數據同步作業可能達到的最高速率,其最終實際速率受網絡環境、數據庫配置等影響。
4.任務調度
新建任務創建好保存後,會默認產生一個周期調度任務,默認的時間是每天晚上00:00執行。客戶也可根據實際的同步場景進行時間調整配置。下圖所示是默認的配置:
默認的依賴屬性:
依賴屬性中可以配置任務的上遊依賴,表示即使當前任務的實例已經到定時時間,也必須等待上遊任務的實例運行完畢才會觸發運行。
如果沒有配置上遊任務,則當前任務默認由項目本身觸發運行,故在調度係統中,該任務的上遊默認為 project_start 任務。每一個項目中默認會創建一個 project_start 任務作為根任務。
5.運行及日誌排查
5.1測試運行
1.單擊工作流頁麵中的測試運行按鈕,如下圖所示:
2. 根據跳轉頁麵的提示,單擊確認和運行;
3.單擊前往運維中心查看任務運行狀態和運行日誌,如下圖所示:
說明:
測試運行是手動觸發任務執行,任務調度的時間到了,就自動運行,無視實例的上遊依賴關係。
若測試運行隻需要運行一次,測試運行完成後需要在調度狀態前打勾暫停掉此任務。
最後更新:2017-09-28 14:33:11