閱讀886 返回首頁    go 魔獸


切分與並行__進階與深入_數據集成-阿裏雲

為最大化數據同步的Job傳輸吞吐量,CDP將對Job進行更細粒度的任務切分,並啟動多個數據傳輸單元進行並行數據同步。CDP的切分規則由CDP框架定義接口,具體切分規則交由具體傳輸插件負責實現,例如:對於ODPS而言,數據切分根據ODPS表的Record偏移量計算數據分片。對於Mysql Reader插件而言,其切分算法按照Mysql數據表主鍵範圍切分。image

以Mysql抽取數據為例,MysqlReader啟動後將連接源數據端,計算數據表主鍵範圍,如[Min, Max],並根據用戶帶寬需求切分上述[Min, Max]區間範圍,每個子區間將作為一個Task提交給後續傳輸單元進行執行。例如,上述Mysql數據表主鍵範圍在[1,4],MysqlReader根據用戶需要的吞吐量計算得出數據切分規則需要兩個數據子集,因此將數據區間區分為[1, 2]、[3, 4]兩個數據子集,兩個數據子集交由不同的同步傳輸單元完成。

最後更新:2016-05-06 10:43:33

  上一篇:go 最小傳輸單元__進階與深入_數據集成-阿裏雲
  下一篇:go 數據字段映射__進階與深入_數據集成-阿裏雲