ODPS到ADS數據遷移指南
數據同步節點任務是阿裏雲大數據平台對外提供的穩定高效、彈性伸縮的數據同步雲服務。ODPS到ADS數據遷移采用CDP的方式同步數據。
1.    創建源和目標庫表結構
初次在同步數據前需要在源庫和目標庫創建好相應的表結構。
2.    配置數據源
2.1源數據源配置-ODPS
1.登錄Base管控台,單擊頂部菜單欄中的項目管理,並選擇相應的項目。
2.進入數據源配置,單擊新增數據源。
3. 在新建數據源彈出框中,選擇數據源類型為ODPS;
配置項說明(上圖中帶*的都必須輸入相應的信息):
l 數據源名稱:由英文字母、數字、下劃線組成且需以字符或下劃線開頭,長度不超過60個字符。
l 數據源描述:對數據源進行簡單描述,不得超過80個字符。
l 數據源類型:當前選擇的數據源類型ODPS。
l ODPS Endpoint:默認隻讀。從係統配置中自動讀取。
l ODPS項目名稱:與計算引擎配置中的ODPS項目名稱相同。
l AccessID/AceessKey:訪問密鑰 AccessKey(AK) 相當於登錄密碼。
4. 單擊測試連通性。
5. 測試連通性通過後,單擊確定。
2.2目標數據源配置-ADS
1.登錄Base管控台,單擊頂部菜單欄中的項目管理,並選擇相應的項目。
2. 進入數據源配置,單擊新增數據源。
3. 在新建數據源彈出框中,選擇數據源類型為 ADS,配置ADS數據源的各個信息項。
配置項說明(上圖中帶*的都必須輸入相應的信息):
l 數據源名稱:由英文字母、數字、下劃線組成且需以字符或下劃線開頭,長度不超過60個字符。
l 數據源描述:對數據源進行簡單描述,不得超過80個字符。
l 數據源類型:當前選擇的數據源類型ADS。
l 連接Url:ADS連接信息,格式為:serverIP:Port。
l Schema:相應的 ADS Schema 信息。
l AccessID/AceessKey:訪問密鑰 AccessKey(AK) 相當於登錄密碼。
4. 單擊測試連通性。
5. 測試連通性通過後,單擊確定。
3. 創建同步任務
1. 新建同步節點,如下圖所示:
新建任務配置項說明(帶*項都需要輸入或選擇):
名稱: 起一個好識別的名稱,符合命名規則即可;
任務類型為工作流任務可一次性調度或周期調度;節點任務隻能是周期調度;
類型:選擇數據同步;
選擇目錄:任務開發中選擇您所使用的文件夾中要同步的任務。
2.選擇數據來源和目標
其中:數據來源指的是數據源,數據流向指的是目標數據源。
3.字段配置
當源表和目標表結構一致時,默認的源和目標表字段是一一對應的關係,不用做任何設置。如下圖所示:
4. 數據抽取和加載控製
ÃÂ 數據抽取
全量同步時過濾條件為空;增量同步時可按時間進行數據的抽取。
ÃÂ 加載控製
加載控製中的導入模式與ADS表更新方式要對應;建議導入規則用覆蓋寫入。
ADS表更新方式 |
導入模式 |
導入規則 |
批量更新 |
批量導入 |
覆蓋寫入或追加寫入 |
實時更新 |
實時導入 |
覆蓋寫入或追加寫入 |
說明:
導入規則是覆蓋寫入:目標表中有與源表部分相同的數據,覆蓋寫入會對相同的數據覆蓋寫入;
導入規則是追加寫入:源表中新增的數據,同步時會同步過去;當是批量導入時目標表與源表有主鍵相同數據不會導入成功。
5.流量與出錯控製
作業速率上限是指數據同步作業可能達到的最高速率,其最終實際速率受網絡環境、數據庫配置等影響。
4.    任務調度
新建任務創建好保存後,會產生一個周期調度,默認的時間是每天晚上00:00執行。客戶也可根據實際的同步場景進行時間配置。下圖所示是默認的配置:
依賴屬性配置:
依賴屬性中可以配置任務的上遊依賴,表示即使當前任務的實例已經到定時時間,也必須等待上遊任務的實例運行完畢才會觸發運行。
如果沒有配置上遊任務,則當前任務默認由項目本身觸發運行,故在調度係統中,該任務的上遊默認為 project_start 任務。每一個項目中默認會創建一個 project_start 任務作為根任務。
5.    運維及日誌排錯
5.1測試運行
1.單擊工作流頁麵中的測試運行按鈕,如下圖所示:
2. 根據跳轉頁麵的提示,單擊確認和運行;
3.單擊前往運維中心查看任務運行狀態和運行日誌,如下圖所示:
說明:
測試運行是手動觸發任務執行,任務調度的時間到了,就自動運行,無視實例的上遊依賴關係。
若測試運行隻需要運行一次,測試運行完成後需要在調度狀態前打勾暫停掉此任務。
5.2周期自動運行
周期自動運行,由係統根據所有任務的任務調度配置自動觸發。前往運維中心查看任務運行狀態和檢查運行日誌。
路徑:運維中心-〉任務管理-〉任務運維視圖下查找對應時間對應任務的運行狀態和檢查節點運行日誌。
最後更新:2017-09-19 10:03:07