652 阿里云

Job(作业)__产品概念_产品简介_数据集成-阿里云

Job是CDP进行数据批量同步的基本业务单位，CDP Job面向表级别数据同步，Job描述了一个数据同步作业完成一次数据同步任务所需要的信息，包括E(Extract)、T(Transform)、L(Load)等用户描述信息，也包括作业的运行信息，例如同步数据量、同步速率、当前进度等计量信息，还包括生命周期等等，Job运行完毕即完成了一次数据同步工作。

二、作用

作业模型

CDP本身不保存作业信息，CDP对用户提交每一次作业都生成一个Job*对象，并为其分配了唯一的Job ID。对于用户多次提交同一个作业，CDP识别为多次提交，并分配多个Job ID。即对于CDP同步任务(批处理同步和流式同步)而言，CDP提供触发式任务服务能力。类似于Hadoop的作业概念模型，CDP将提交的一个实例化作业抽象为Job，运行一次即是一个独立的Job。

调度模型

由于Pipeline管道资源控制，该Job可能无法及时被调度启动。CDP对于离线同步调度策略采用业界通用的批处理系统调度策略，支持FIFO的算法(先进先出)，也利用贪心算法进行局部最优处理，尽可能保证您申请的Pipeline资源能够最大限度被利用。

例如，当您申请了额度为5MB/s的Pipeline先后被客户端提交：3MB/s的Job、4MB/s的Job、2MB/s的Job，由于3MB/s的Job启动后当前Pipeline只剩余2MB/s带宽 (5 - 3 = 2)，当4MB/s的Job到达CDP时无法启动 (5 - 3 < 4)，只能等待直到3MB/s的Job运行结束。而到2MB/s的Job提交到达CDP时，CDP会因为能为该Job找到足够资源运行(5 - 3 >=2)，那么将直接启动该带宽为2MB/s的Job。最后带宽数为4MB/s的Job需要一直等到3MB/s和2MB/s的Job完成后才能启动。该处理策略可以将Pipeline资源数最大限度利用起来。

约束限制

• CDP Job暂未能实现对数据源schema信息同步功能，因此用户需要提前在目的端数据源进行建表操作，并且最好做到目标表的字段个数、类型与源端大致一致。

• CDP Job按照源宿两端Column的顺序进行传输，而不是依靠Column名称或者类型进行，例如源端Column为a,b,c三列，目标端为x,y,z三列。CDP将源端数据a,b,c按照目标端数据x,y,z顺序导入。

• CDP本身存在字段类型隐式转换规则，支持常见的转换规则例如整形、浮点型可以自动转为字符串类型。

最后更新：2016-11-24 11:23:47

Job(作业)__产品概念_产品简介_数据集成-阿里云

二、作用

上一篇： Pipeline(数据管道)__产品概念_产品简介_数据集成-阿里云

下一篇：权限和安全__产品概念_产品简介_数据集成-阿里云

相关内容

热门内容

最新内容

Job(作业)__产品概念_产品简介_数据集成-阿里云

二、作用

上一篇： Pipeline(数据管道)__产品概念_产品简介_数据集成-阿里云

下一篇： 权限和安全__产品概念_产品简介_数据集成-阿里云

相关内容

热门内容

最新内容

下一篇：权限和安全__产品概念_产品简介_数据集成-阿里云