540
阿里云
Job主体配置__作业配置说明_使用手册_数据集成-阿里云
一、Job基本配置
Job基本配置定义了一个Job基础的、框架级别的配置信息,包括:
{
"type": "job", //用户提交同步类型,包括Job/Stream
"traceId": "bazhen_001", //用户用来此traceId跟踪作业
"version": "1.0", //版本号,公测版本CDP目前仅支持1.0版本格式。
"configuration": {
"settting": {
"key": "value"
},
"reader": {
"plugin": "mysql", //这里填写源头数据存储类型的名称
"parameter": {
"key": "value"
}
},
"writer": {
"plugin": "odps", //这里填写目标端数据存储类型的名称
"parameter": {
"key": "value"
}
}
}
}
其中:
• type
指定本次提交同步任务是Job、Stream。
• traceId
traceId用来跟踪本次提交的Job。traceId是由用户指定,并且建议用户按照自己业务逻辑生成唯一ID,以方便后期的运维工作。
CDP只提供触发式数据同步API,CDP本身不提供Job存储、Job定期调度、Job的DAG依赖触发等各类涉及工作流调度功能。因此同一份Job如果用户多次(非并行)进行提交,CDP将为每次提交的Job分配单个CDP集群(例如杭州集群)唯一的运行ID,该ID为Job的主键ID,由CDP服务生成并分配,CDP保证全局唯一性。如果用户希望对于每个数据同步任务配置使用同一个ID进行追踪,那么请为每个数据同步作业分配单一的traceID。
例如阿里云公有云产品"采云间"系统,其底层数据集成功能通过CDP完成。采云间使用"dpc+采云间作业ID"作为traceId向CDP提交Job。这样采云间可以方便的使用采云间作业ID在CDP中获取并追踪该采云间作业近期所有的运行状况。
• version
目前所有Job仅支持版本号"1.0",用户只能填写版本号为"1.0"。
二、Job Setting配置
Job的setting域描述的是Job配置参数中,排除源端、目的端外有关Job全局信息的配置参数,比如Job流控、Job类型转换。总体如下:
{
"type": "job",
"traceId": "bazhen_0001",
"version": "1.0",
"configuration": {
"setting": {
"errorLimit": {},
"speed": {},
"column": {}
}
}
}
- configuration.setting.column(类型转换)
CDP支持最基本的类型转换,用户可以自定义设定类型转换配置,用以描述一些基本的字段类型转换信息,包括:
• datetimeFormat: 设定datetime类型和string类型的转换format。
• timeFormat: 设定time类型和string类型的转换format。
• dateFormat: 设定date类型和string类型的转换format。
• encoding: 设定byte类型和string类型的转换编码格式。
目前支持的类型转换格式配置如下:
{
"type": "job",
"traceId": "bazhen_0001",
"version": "1.0",
"configuration": {
"setting": {
"column": {
"datetimeFormat": "yyyy-MM-dd HH:mm:ss",
"timeFormat": "HH:mm:ss",
"dateFormat": "yyyy-MM-dd",
"encoding": "utf-8"
}
}
}
}
- configuration.setting.errorLimit(脏数据控制)
CDP Job支持用户对于脏数据的自定义监控和告警,包括对脏数据最大记录数阈值或者脏数据占比阈值,当Job传输过程出现的脏数据大于用户指定的数量/百分比,CDPJob报错退出。如下:
{
"type": "job",
"version": "1.0",
"configuration": {
"setting": {
"errorLimit": {
"record": 1024
}
}
}
}
上述配置用户指定了errorLimit上限为1024条record,当Job在传输过程中出现脏数据记录数大于1024,Job报错退出。同样,用户可以指定脏数据占总体数据传输记录数的百分比,如果大于该值,Job报错退出:
- configuration.setting.speed (流量控制)
CDP Job支持对通道流量控制,即用户可以对单个Job分配带宽最大限制。CDP公测期间,最大Job流量阈值为5MB/s,CDP将直接报错。注意流量度量值是CDP本身的度量值,不代表实际网卡流量。通常情况下,网卡流量往往是CDP通道流量膨胀到1至2倍左右,实际流量膨胀看具体的数据存储系统传输序列化情况。配置如下:
{
"type": "job",
"configuration": {
"setting": {
"speed": {
"mbps": 1 //代表1MB/s的传输带宽
}
}
}
}
最后更新:2016-11-23 16:03:59
上一篇:
Job配置约定__作业配置说明_使用手册_数据集成-阿里云
下一篇:
MySQLReader__Reader插件_使用手册_数据集成-阿里云
JavaScript版本__上传SDK_SDK手册_视频点播-阿里云
RouterInterfaceSetType__数据类型_API 参考_云服务器 ECS-阿里云
脚本调试__脚本编写_使用手册_性能测试-阿里云
查看诊断报告__实例诊断_性能管理_用户指南(RDBMS)_数据管理-阿里云
云服务器 ECS 本地SSD盘常见问题FAQ
Logtail机器组__公共资源说明_API-Reference_日志服务-阿里云
修改、查询、删除定时任务__定时任务_用户指南_弹性伸缩-阿里云
C-SDK使用(threadx)__SDK使用参考_设备端接入手册_阿里云物联网套件-阿里云
4.4 多计算引擎和Hint__第四章 DML_使用手册_分析型数据库-阿里云
ImageResultsRequest__SDK·接口介绍_内容检测API文档_阿里绿网-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云