652
阿里云
Job(作业)__产品概念_产品简介_数据集成-阿里云
Job是CDP进行数据批量同步的基本业务单位,CDP Job面向表级别数据同步,Job描述了一个数据同步作业完成一次数据同步任务所需要的信息,包括E(Extract)、T(Transform)、L(Load)等用户描述信息,也包括作业的运行信息,例如同步数据量、同步速率、当前进度等计量信息,还包括生命周期等等,Job运行完毕即完成了一次数据同步工作。
二、作用
- 作业模型
CDP本身不保存作业信息,CDP对用户提交每一次作业都生成一个Job*对象,并为其分配了唯一的Job ID。对于用户多次提交同一个作业,CDP识别为多次提交,并分配多个Job ID。即对于CDP同步任务(批处理同步和流式同步)而言,CDP提供触发式任务服务能力。 类似于Hadoop的作业概念模型,CDP将提交的一个实例化作业抽象为Job,运行一次即是一个独立的Job。
- 调度模型
由于Pipeline管道资源控制,该Job可能无法及时被调度启动。CDP对于离线同步调度策略采用业界通用的批处理系统调度策略,支持FIFO的算法(先进先出),也利用贪心算法进行局部最优处理,尽可能保证您申请的Pipeline资源能够最大限度被利用。
例如,当您申请了额度为5MB/s的Pipeline先后被客户端提交:3MB/s的Job、4MB/s的Job、2MB/s的Job,由于3MB/s的Job启动后当前Pipeline只剩余2MB/s带宽 (5 - 3 = 2),当4MB/s的Job到达CDP时无法启动 (5 - 3 < 4),只能等待直到3MB/s的Job运行结束。而到2MB/s的Job提交到达CDP时,CDP会因为能为该Job找到足够资源运行(5 - 3 >=2),那么将直接启动该带宽为2MB/s的Job。最后带宽数为4MB/s的Job需要一直等到3MB/s和2MB/s的Job完成后才能启动。该处理策略可以将Pipeline资源数最大限度利用起来。
- 约束限制
• CDP Job暂未能实现对数据源schema信息同步功能,因此用户需要提前在目的端数据源进行建表操作,并且最好做到目标表的字段个数、类型与源端大致一致。
• CDP Job按照源宿两端Column的顺序进行传输,而不是依靠Column名称或者类型进行,例如源端Column为a,b,c三列,目标端为x,y,z三列。CDP将源端数据a,b,c按照目标端数据x,y,z顺序导入。
• CDP本身存在字段类型隐式转换规则,支持常见的转换规则例如整形、浮点型可以自动转为字符串类型。
最后更新:2016-11-24 11:23:47
上一篇:
Pipeline(数据管道)__产品概念_产品简介_数据集成-阿里云
下一篇:
权限和安全__产品概念_产品简介_数据集成-阿里云
云盘参数和性能测试方法__磁盘_产品简介_云服务器 ECS-阿里云
查询可用专线接入点信息__高速通道相关接口_API 参考_云服务器 ECS-阿里云
删除表__从 SQL 到 NoSQL_快速入门_表格存储-阿里云
OpenID Connect认证__使用手册(开放API)_API 网关-阿里云
单行数据操作__Java-SDK_SDK 参考_表格存储-阿里云
如何参加线上培训课程__线上培训课程_上云培训-阿里云
创建 ECS 实例__快速入门_负载均衡-阿里云
集群脚本__集群_用户指南_E-MapReduce-阿里云
云服务器 ECS Linux SSH 连接交互过程简介__远程登录 (SSH)_Linux操作运维问题_云服务器 ECS-阿里云
使用资源示例__示例程序_MapReduce_大数据计算服务-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云