Job主体配置__作业配置说明_使用手册_数据集成-阿里云

一、Job基本配置

Job基本配置定义了一个Job基础的、框架级别的配置信息，包括：

{
    "type": "job",  //用户提交同步类型，包括Job/Stream
    "traceId": "bazhen_001",  //用户用来此traceId跟踪作业
    "version": "1.0",   //版本号，公测版本CDP目前仅支持1.0版本格式。
    "configuration": {
        "settting": {
            "key": "value"
        },
        "reader": {
            "plugin": "mysql",  //这里填写源头数据存储类型的名称
            "parameter": {
                "key": "value"
            }
        },
        "writer": {
            "plugin": "odps",   //这里填写目标端数据存储类型的名称
            "parameter": {
                "key": "value"
            }
        }
    }
}

其中：

• type

指定本次提交同步任务是Job、Stream。

• traceId

traceId用来跟踪本次提交的Job。traceId是由用户指定，并且建议用户按照自己业务逻辑生成唯一ID，以方便后期的运维工作。

CDP只提供触发式数据同步API，CDP本身不提供Job存储、Job定期调度、Job的DAG依赖触发等各类涉及工作流调度功能。因此同一份Job如果用户多次(非并行)进行提交，CDP将为每次提交的Job分配单个CDP集群(例如杭州集群)唯一的运行ID，该ID为Job的主键ID，由CDP服务生成并分配，CDP保证全局唯一性。如果用户希望对于每个数据同步任务配置使用同一个ID进行追踪，那么请为每个数据同步作业分配单一的traceID。

例如阿里云公有云产品"采云间"系统，其底层数据集成功能通过CDP完成。采云间使用"dpc+采云间作业ID"作为traceId向CDP提交Job。这样采云间可以方便的使用采云间作业ID在CDP中获取并追踪该采云间作业近期所有的运行状况。

• version

目前所有Job仅支持版本号"1.0"，用户只能填写版本号为"1.0"。

二、Job Setting配置

Job的setting域描述的是Job配置参数中，排除源端、目的端外有关Job全局信息的配置参数，比如Job流控、Job类型转换。总体如下：

{
    "type": "job",
    "traceId": "bazhen_0001",
    "version": "1.0",
    "configuration": {
        "setting": {
            "errorLimit": {},
            "speed": {},
            "column": {}
        }
    }
}

configuration.setting.column(类型转换)

CDP支持最基本的类型转换，用户可以自定义设定类型转换配置，用以描述一些基本的字段类型转换信息，包括：

• datetimeFormat: 设定datetime类型和string类型的转换format。

• timeFormat: 设定time类型和string类型的转换format。

• dateFormat: 设定date类型和string类型的转换format。

• encoding: 设定byte类型和string类型的转换编码格式。

目前支持的类型转换格式配置如下：

{
    "type": "job",
    "traceId": "bazhen_0001",
    "version": "1.0",
    "configuration": {
        "setting": {
            "column": {
                "datetimeFormat": "yyyy-MM-dd HH:mm:ss",
                "timeFormat": "HH:mm:ss",
                "dateFormat": "yyyy-MM-dd",
                "encoding": "utf-8"
            }
        }
    }
}

configuration.setting.errorLimit(脏数据控制)

CDP Job支持用户对于脏数据的自定义监控和告警，包括对脏数据最大记录数阈值或者脏数据占比阈值，当Job传输过程出现的脏数据大于用户指定的数量/百分比，CDPJob报错退出。如下：

{
    "type": "job",   
    "version": "1.0",
    "configuration": {
        "setting": {
            "errorLimit": {
                "record": 1024
            }
        }
    }
}

上述配置用户指定了errorLimit上限为1024条record，当Job在传输过程中出现脏数据记录数大于1024，Job报错退出。同样，用户可以指定脏数据占总体数据传输记录数的百分比，如果大于该值，Job报错退出:

configuration.setting.speed (流量控制)

CDP Job支持对通道流量控制，即用户可以对单个Job分配带宽最大限制。CDP公测期间，最大Job流量阈值为5MB/s，CDP将直接报错。注意流量度量值是CDP本身的度量值，不代表实际网卡流量。通常情况下，网卡流量往往是CDP通道流量膨胀到1至2倍左右，实际流量膨胀看具体的数据存储系统传输序列化情况。配置如下：

{
    "type": "job",
    "configuration": {
        "setting": {
            "speed": {
                "mbps": 1  //代表1MB/s的传输带宽
            }
        }
    }
}

最后更新：2016-11-23 16:03:59

Job主体配置__作业配置说明_使用手册_数据集成-阿里云

一、Job基本配置

二、Job Setting配置

上一篇： Job配置约定__作业配置说明_使用手册_数据集成-阿里云

下一篇： MySQLReader__Reader插件_使用手册_数据集成-阿里云

相关内容

热门内容

最新内容