閱讀645 返回首頁    go 阿裏雲 go 技術社區[雲棲]


ODPS到ADS數據遷移指南

數據同步節點任務是阿裏雲大數據平台對外提供的穩定高效、彈性伸縮的數據同步雲服務。ODPS到ADS數據遷移采用CDP的方式同步數據。

1.     創建源和目標庫表結構

初次在同步數據前需要在源庫和目標庫創建好相應的表結構。


2.     配置數據源

2.1源數據源配置-ODPS


1.登錄Base管控台,單擊頂部菜單欄中的項目管理,並選擇相應的項目。

ff4ce004e8a02d4a6779f6fae39d8ac1005636a6

 

2.進入數據源配置,單擊新增數據源

3f37967934666488b80d036b69194920e808e295





3. 在新建數據源彈出框中,選擇數據源類型為ODPS;

2df70c5ad09183cdfa3edbd740fd24e8c709634a


 

配置項說明(上圖中帶*的都必須輸入相應的信息):

l  數據源名稱:由英文字母、數字、下劃線組成且需以字符或下劃線開頭,長度不超過60個字符。

l  數據源描述:對數據源進行簡單描述,不得超過80個字符。

l  數據源類型:當前選擇的數據源類型ODPS。

l  ODPS Endpoint:默認隻讀。從係統配置中自動讀取

l  ODPS項目名稱與計算引擎配置中的ODPS項目名稱相同。

l  AccessID/AceessKey訪問密鑰 AccessKeyAK 相當於登錄密碼。

4. 單擊測試連通性。

5. 測試連通性通過後,單擊確定。

2.2目標數據源配置-ADS

1.登錄Base管控台,單擊頂部菜單欄中的項目管理,並選擇相應的項目。

2bd601fd6a61a9e80d22eebed274ff12032204d6


2. 進入數據源配置,單擊新增數據源

 

19f6ef2590e1576049b414a709c5168bb3592eb3
3. 在新建數據源彈出框中,選擇數據源類型為 ADS,配置ADS數據源的各個信息項。

fd6c81e056857f16865ff294e7f4f86678d41721

 

配置項說明(上圖中帶*的都必須輸入相應的信息):

l  數據源名稱:由英文字母、數字、下劃線組成且需以字符或下劃線開頭,長度不超過60個字符。

l  數據源描述:對數據源進行簡單描述,不得超過80個字符。

l  數據源類型:當前選擇的數據源類型ADS。

l  連接UrlADS連接信息,格式為:serverIP:Port

l  Schema相應的 ADS Schema 信息。

l  AccessID/AceessKey訪問密鑰 AccessKeyAK 相當於登錄密碼。

4. 單擊測試連通性。

5. 測試連通性通過後,單擊確定。

3.     創建同步任務

1. 新建同步節點,如下圖所示:

c42675153198c885aa6b7873178fb60e1756b36a


新建任務配置項說明(*項都需要輸入或選擇

名稱: 起一個好識別的名稱,符合命名規則即可;

任務類型為工作流任務可一次性調度或周期調度;節點任務隻能是周期調度;

類型:選擇數據同步;

選擇目錄:任務開發中選擇您所使用的文件夾中要同步的任務。

 

2.選擇數據來源和目標

5434c7b4e5768a0123cd554bae889767d846a375

其中:數據來源指的是數據源,數據流向指的是目標數據源。

 

3.字段配置


當源表和目標表結構一致時,默認的源和目標表字段是一一對應的關係,不用做任何設置。如下圖所示:

 2259b1a1618ec20711b6d28ff6e3a0a08e553c67

4. 數據抽取和加載控製

Ø  數據抽取

全量同步時過濾條件為空;增量同步時可按時間進行數據的抽取。

Ø  加載控製

 加載控製中的導入模式與ADS表更新方式要對應;建議導入規則用覆蓋寫入。

ADS表更新方式

導入模式

導入規則

批量更新

批量導入

覆蓋寫入或追加寫入

實時更新

實時導入

覆蓋寫入或追加寫入

 

 

 

  

說明:

  導入規則是覆蓋寫入:目標表中有與源表部分相同的數據,覆蓋寫入會對相同的數據覆蓋寫入;

  導入規則是追加寫入:源表中新增的數據,同步時會同步過去;當是批量導入時目標表與源表有主鍵相同數據不會導入成功。

 5.流量與出錯控製

 作業速率上限是指數據同步作業可能達到的最高速率,其最終實際速率受網絡環境、數據庫配置等影響。

 

4.     任務調度


新建任務創建好保存後,會產生一個周期調度,默認的時間是每天晚上00:00執行。客戶也可根據實際的同步場景進行時間配置。下圖所示是默認的配置

 

225edf9632c75870cadecdb7d512a25cd29892f9

依賴屬性配置:

76c79dcde460ad20cbb6a30213f429f45fabe96f

 

 


  依賴屬性中可以配置任務的上遊依賴,表示即使當前任務的實例已經到定時時間,也必須等待上遊任務的實例運行完畢才會觸發運行。

如果沒有配置上遊任務,則當前任務默認由項目本身觸發運行,故在調度係統中,該任務的上遊默認為 project_start 任務。每一個項目中默認會創建一個 project_start 任務作為根任務

5.     運維及日誌排錯

5.1測試運行


1.單擊工作流頁麵中的測試運行按鈕,如下圖所示:

2. 根據跳轉頁麵的提示,單擊確認運行

 3.單擊前往運維中心查看任務運行狀態和運行日誌,如下圖所示:

707aae93f43c348ef7757ff2b3e5dfddae0e1adc

說明:

測試運行是手動觸發任務執行,任務調度的時間到了,就自動運行,無視實例的上遊依賴關係。

若測試運行隻需要運行一次,測試運行完成後需要在調度狀態前打勾暫停掉此任務。

57b513550b615ae3ee18be431f257649260f6763








5.2周期自動運行

    周期自動運行,由係統根據所有任務的任務調度配置自動觸發。前往運維中心查看任務運行狀態和檢查運行日誌。

路徑:運維中心-〉任務管理-〉任務運維視圖下查找對應時間對應任務的運行狀態和檢查節點運行日誌。

 

最後更新:2017-09-19 10:03:07

  上一篇:go  ODPS到ODPS數據遷移指南
  下一篇:go  GTS全局事務測試-單DRDS跨庫事務