數加使用自定義調度資源進行數據同步
數加使用自定義調度資源進行數據同步
數加數據同步的工具
眾所周知數加的數據是存儲在MaxCompute(原名:ODPS)上,目前數加上所有的數據同步都是基於datax插件,通過datax插件可以在不同的數據源之間同步,常用的數據源有SFTP,Mysql,MaxCompute. datax已經開源了,但是數加使用的版本跟開源的版本略微有點不一樣,參考資料: 開源版本 和 數加版本
什麼是自定義調度資源
數加提供的數據同步工具也是基於datax,且他們有很多的機器(在杭州ECS)專門用來運行datax,把這部分機器資源叫做默認調度資源;相對於默認調度資源,運行在我們(用戶)的機器上的調度資源叫做自定義調度資源.
為什麼需要使用自定義調度資源
目前數加的默認調度資源都是在杭州ECS,而我們的大部分數據回流需要回流到北京機房或者是華北2區(和北京機房有專線通道)的ECS上,如果直接使用默認調度資源會出現datax寫數據的時候是跨機房的(從杭州的ECS到北京ECS或北京機房這塊目前是沒有VPC專線通道的)走公網,網絡不那麼穩定,從而導致同步速度慢,甚至網絡抖動導致任務失敗.因此我們需要在北京的ECS上搭建一些調度資源(目前是2台ECS,4核16G)來解決這個問題,這樣datax在從MaxCompute導數據到北京機房或者北京ECS的時候就可以通過內網的方式進行數據寫入,提高速度和穩定性;聰明的你一定發現了:datax在抽取數據的時候是跨機房的,也就是數據從MaxCompute到datax的時候是跨機房的.是的沒錯,但是MaxCompute提供了一個VPC連接服務地址,而且還是免費使用,這樣就能有效提高整個同步任務的速度和穩定性.
如何使用自定義調度資源進行數據同步
- 添加自定義調度資源 (對於大部分同學不需要操作,因此放在後麵說明)
- 添加內網數據源 :項目管理員操作,和添加其他數據源一樣,隻是對應的地址換成內網地址,這裏不需要測試連接,因為測試連接會失敗[原因自己想想],直接保存.
- 新建或修改同步任務 : 目前通過可視化界麵的任務無法找到對應的表(原因跟第2點的測試一樣),所以目前隻能轉化成腳本模式https://help.aliyun.com/document_detail/49808.html?spm=5176.doc47677.6.568.mnDS29,然後需改ODPS端的
"odpsServer": "https://odps-ext.aliyun-inc.com/api", "tunnelServer": "https://dt-ext.nu16.odps.aliyun-inc.com",
添加這兩個是為了datax在連接MaxCompute的時候走vpc通道.如果沒有這兩個,則添加這裏是因為我們要把數據導到北京因此使用這兩個地址,如果是其他地方,請參考MaxCompute的連接服務地址 - 修改任務的資源調度: 由於數加數據同步默認使用默認調度資源,因此我們需要修改調度資源,如下圖
選擇對應的自定義資源, 修改後需要重新補數據或測試運行才能使用自定義調度資源,修改之前生成的實例還是使用默認調度資源,這個設計不知道數加的產品是出於什麼考慮,我是感覺有點怪怪的.
如何添加自定義調度資源
請自行查看數加的官方文檔新增自定義調度資源
最後更新:2017-07-20 17:02:46