閱讀228 返回首頁    go 技術社區[雲棲]


實踐 —— 親測從 RDS MySQL 通過數據集成導入 MaxCompute

我們今天要試的,是從RDS 的MySQL數據庫到MaxCompute的 ODPS 的數據同步過程。
image

往簡單了說,就是把源數據庫(Read)裏的數據,轉移到目標數據庫(Write)。**DataWorks** 產品組裏的 數據集成 提供了數據一次性搬移,以及周期性搬移的功能,搬移的細節可以在數據同步任務中設置。

一、 數據源
1、 來源數據源
申請RDS 上的MySQL就不多說了,此處的注意事項是,數據集成服務連接RDS MySQL數據庫屬於遠程連接,需要添加連通允許的白名單,如下圖所示設置:
image
image
參考鏈接:RDS數據源配置如何添加RDS IP白名單

注意:白名單設置我這裏很簡單,設置為所有ip都可以訪問,實際上數據集成服務需要的ip為:
image

2、 目標數據源
MaxCompte後台用的存儲是ODPS,在大數據開發套件裏創建的任務默認會帶一個ODPS的數據存儲,所以需要新建一個project就新建了一個ODPS數據源。

image
image

二、 任務配置
進入**數據集成**,按照向導模式,將read數據源和write數據源都配置好。
image
配置來源:
image
配置目標:
image
配置字段映射:
image
預覽配置並保存:
image
配置完成後,就可以運行任務了。點擊“運行”會把當前配置好的數據源導入一次。
可以在**DataWorks**產品組中的**數據管理**中查看導入進來的數據表,如下圖所示:
image
筆者嚐試過兩次導入,一次是幾百行,很快完成,一次是大於1億行,運行了好幾個小時,所以要嚐試的同學要注意一下,嚐試流程時不要試太大的數據集,避免造成運算量過大。

三、 任務運行
測試通過後,可以啟動周期調度,點擊“提交”後可以就可以進入任務頁麵了。
image
按照實際周期同步的需求,設置周期屬性,任務提交後,在 運維中心 可以看到任務運行情況。

最後更新:2017-07-16 23:02:51

  上一篇:go  工業4.0中不可缺少的核心技術-PLM
  下一篇:go  Java異步——ThreadPoolExecutor源碼解析