閱讀535 返回首頁    go 阿裏雲 go 技術社區[雲棲]


數加使用自定義調度資源進行數據同步

數加使用自定義調度資源進行數據同步

數加數據同步的工具

眾所周知數加的數據是存儲在MaxCompute(原名:ODPS)上,目前數加上所有的數據同步都是基於datax插件,通過datax插件可以在不同的數據源之間同步,常用的數據源有SFTP,Mysql,MaxCompute. datax已經開源了,但是數加使用的版本跟開源的版本略微有點不一樣,參考資料: 開源版本 數加版本

什麼是自定義調度資源

數加提供的數據同步工具也是基於datax,且他們有很多的機器(在杭州ECS)專門用來運行datax,把這部分機器資源叫做默認調度資源;相對於默認調度資源,運行在我們(用戶)的機器上的調度資源叫做自定義調度資源.

為什麼需要使用自定義調度資源

目前數加的默認調度資源都是在杭州ECS,而我們的大部分數據回流需要回流到北京機房或者是華北2區(和北京機房有專線通道)的ECS上,如果直接使用默認調度資源會出現datax寫數據的時候是跨機房的(從杭州的ECS到北京ECS或北京機房這塊目前是沒有VPC專線通道的)走公網,網絡不那麼穩定,從而導致同步速度慢,甚至網絡抖動導致任務失敗.因此我們需要在北京的ECS上搭建一些調度資源(目前是2台ECS,4核16G)來解決這個問題,這樣datax在從MaxCompute導數據到北京機房或者北京ECS的時候就可以通過內網的方式進行數據寫入,提高速度和穩定性;聰明的你一定發現了:datax在抽取數據的時候是跨機房的,也就是數據從MaxCompute到datax的時候是跨機房的.是的沒錯,但是MaxCompute提供了一個VPC連接服務地址,而且還是免費使用,這樣就能有效提高整個同步任務的速度和穩定性.

如何使用自定義調度資源進行數據同步

  1. 添加自定義調度資源 (對於大部分同學不需要操作,因此放在後麵說明)
  2. 添加內網數據源 :項目管理員操作,和添加其他數據源一樣,隻是對應的地址換成內網地址,這裏不需要測試連接,因為測試連接會失敗[原因自己想想],直接保存.
  3. 新建或修改同步任務 : 目前通過可視化界麵的任務無法找到對應的表(原因跟第2點的測試一樣),所以目前隻能轉化成腳本模式https://help.aliyun.com/document_detail/49808.html?spm=5176.doc47677.6.568.mnDS29,然後需改ODPS端的"odpsServer": "https://odps-ext.aliyun-inc.com/api", "tunnelServer": "https://dt-ext.nu16.odps.aliyun-inc.com", 添加這兩個是為了datax在連接MaxCompute的時候走vpc通道.如果沒有這兩個,則添加這裏是因為我們要把數據導到北京因此使用這兩個地址,如果是其他地方,請參考MaxCompute的連接服務地址
  4. 修改任務的資源調度: 由於數加數據同步默認使用默認調度資源,因此我們需要修改調度資源,如下圖image選擇對應的自定義資源, 修改後需要重新補數據或測試運行才能使用自定義調度資源,修改之前生成的實例還是使用默認調度資源,這個設計不知道數加的產品是出於什麼考慮,我是感覺有點怪怪的.

如何添加自定義調度資源

請自行查看數加的官方文檔新增自定義調度資源

最後更新:2017-07-20 17:02:46

  上一篇:go  用數據把每一個消費者都描述清晰 大數據帶來的商業變革
  下一篇:go  健康一體機讓你輕鬆成為健康管理高手