阅读886 返回首页    go 百度


切分与并行__进阶与深入_数据集成-阿里云

为最大化数据同步的Job传输吞吐量,CDP将对Job进行更细粒度的任务切分,并启动多个数据传输单元进行并行数据同步。CDP的切分规则由CDP框架定义接口,具体切分规则交由具体传输插件负责实现,例如:对于ODPS而言,数据切分根据ODPS表的Record偏移量计算数据分片。对于Mysql Reader插件而言,其切分算法按照Mysql数据表主键范围切分。image

以Mysql抽取数据为例,MysqlReader启动后将连接源数据端,计算数据表主键范围,如[Min, Max],并根据用户带宽需求切分上述[Min, Max]区间范围,每个子区间将作为一个Task提交给后续传输单元进行执行。例如,上述Mysql数据表主键范围在[1,4],MysqlReader根据用户需要的吞吐量计算得出数据切分规则需要两个数据子集,因此将数据区间区分为[1, 2]、[3, 4]两个数据子集,两个数据子集交由不同的同步传输单元完成。

最后更新:2016-05-06 10:43:33

  上一篇:go 最小传输单元__进阶与深入_数据集成-阿里云
  下一篇:go 数据字段映射__进阶与深入_数据集成-阿里云