阅读652 返回首页    go 阿里云


Job(作业)__产品概念_产品简介_数据集成-阿里云

Job是CDP进行数据批量同步的基本业务单位,CDP Job面向表级别数据同步,Job描述了一个数据同步作业完成一次数据同步任务所需要的信息,包括E(Extract)、T(Transform)、L(Load)等用户描述信息,也包括作业的运行信息,例如同步数据量、同步速率、当前进度等计量信息,还包括生命周期等等,Job运行完毕即完成了一次数据同步工作。

二、作用

  • 作业模型

CDP本身不保存作业信息,CDP对用户提交每一次作业都生成一个Job*对象,并为其分配了唯一的Job ID。对于用户多次提交同一个作业,CDP识别为多次提交,并分配多个Job ID。即对于CDP同步任务(批处理同步和流式同步)而言,CDP提供触发式任务服务能力。 类似于Hadoop的作业概念模型,CDP将提交的一个实例化作业抽象为Job,运行一次即是一个独立的Job。

  • 调度模型

由于Pipeline管道资源控制,该Job可能无法及时被调度启动。CDP对于离线同步调度策略采用业界通用的批处理系统调度策略,支持FIFO的算法(先进先出),也利用贪心算法进行局部最优处理,尽可能保证您申请的Pipeline资源能够最大限度被利用。

例如,当您申请了额度为5MB/s的Pipeline先后被客户端提交:3MB/s的Job、4MB/s的Job、2MB/s的Job,由于3MB/s的Job启动后当前Pipeline只剩余2MB/s带宽 (5 - 3 = 2),当4MB/s的Job到达CDP时无法启动 (5 - 3 < 4),只能等待直到3MB/s的Job运行结束。而到2MB/s的Job提交到达CDP时,CDP会因为能为该Job找到足够资源运行(5 - 3 >=2),那么将直接启动该带宽为2MB/s的Job。最后带宽数为4MB/s的Job需要一直等到3MB/s和2MB/s的Job完成后才能启动。该处理策略可以将Pipeline资源数最大限度利用起来。

  • 约束限制

• CDP Job暂未能实现对数据源schema信息同步功能,因此用户需要提前在目的端数据源进行建表操作,并且最好做到目标表的字段个数、类型与源端大致一致。

• CDP Job按照源宿两端Column的顺序进行传输,而不是依靠Column名称或者类型进行,例如源端Column为a,b,c三列,目标端为x,y,z三列。CDP将源端数据a,b,c按照目标端数据x,y,z顺序导入。

• CDP本身存在字段类型隐式转换规则,支持常见的转换规则例如整形、浮点型可以自动转为字符串类型。

最后更新:2016-11-24 11:23:47

  上一篇:go Pipeline(数据管道)__产品概念_产品简介_数据集成-阿里云
  下一篇:go 权限和安全__产品概念_产品简介_数据集成-阿里云