阅读540 返回首页    go 阿里云


Job主体配置__作业配置说明_使用手册_数据集成-阿里云

一、Job基本配置

Job基本配置定义了一个Job基础的、框架级别的配置信息,包括:

{
    "type": "job",  //用户提交同步类型,包括Job/Stream
    "traceId": "bazhen_001",  //用户用来此traceId跟踪作业
    "version": "1.0",   //版本号,公测版本CDP目前仅支持1.0版本格式。
    "configuration": {
        "settting": {
            "key": "value"
        },
        "reader": {
            "plugin": "mysql",  //这里填写源头数据存储类型的名称
            "parameter": {
                "key": "value"
            }
        },
        "writer": {
            "plugin": "odps",   //这里填写目标端数据存储类型的名称
            "parameter": {
                "key": "value"
            }
        }
    }
}

其中:

type

指定本次提交同步任务是Job、Stream。

traceId

traceId用来跟踪本次提交的Job。traceId是由用户指定,并且建议用户按照自己业务逻辑生成唯一ID,以方便后期的运维工作。

CDP只提供触发式数据同步API,CDP本身不提供Job存储、Job定期调度、Job的DAG依赖触发等各类涉及工作流调度功能。因此同一份Job如果用户多次(非并行)进行提交,CDP将为每次提交的Job分配单个CDP集群(例如杭州集群)唯一的运行ID,该ID为Job的主键ID,由CDP服务生成并分配,CDP保证全局唯一性。如果用户希望对于每个数据同步任务配置使用同一个ID进行追踪,那么请为每个数据同步作业分配单一的traceID。

例如阿里云公有云产品"采云间"系统,其底层数据集成功能通过CDP完成。采云间使用"dpc+采云间作业ID"作为traceId向CDP提交Job。这样采云间可以方便的使用采云间作业ID在CDP中获取并追踪该采云间作业近期所有的运行状况。

version

目前所有Job仅支持版本号"1.0",用户只能填写版本号为"1.0"。

二、Job Setting配置

Job的setting域描述的是Job配置参数中,排除源端、目的端外有关Job全局信息的配置参数,比如Job流控、Job类型转换。总体如下:

{
    "type": "job",
    "traceId": "bazhen_0001",
    "version": "1.0",
    "configuration": {
        "setting": {
            "errorLimit": {},
            "speed": {},
            "column": {}
        }
    }
}
  • configuration.setting.column(类型转换)

CDP支持最基本的类型转换,用户可以自定义设定类型转换配置,用以描述一些基本的字段类型转换信息,包括:

• datetimeFormat: 设定datetime类型和string类型的转换format。

• timeFormat: 设定time类型和string类型的转换format。

• dateFormat: 设定date类型和string类型的转换format。

• encoding: 设定byte类型和string类型的转换编码格式。

目前支持的类型转换格式配置如下:

{
    "type": "job",
    "traceId": "bazhen_0001",
    "version": "1.0",
    "configuration": {
        "setting": {
            "column": {
                "datetimeFormat": "yyyy-MM-dd HH:mm:ss",
                "timeFormat": "HH:mm:ss",
                "dateFormat": "yyyy-MM-dd",
                "encoding": "utf-8"
            }
        }
    }
}
  • configuration.setting.errorLimit(脏数据控制)

CDP Job支持用户对于脏数据的自定义监控和告警,包括对脏数据最大记录数阈值或者脏数据占比阈值,当Job传输过程出现的脏数据大于用户指定的数量/百分比,CDPJob报错退出。如下:

{
    "type": "job",   
    "version": "1.0",
    "configuration": {
        "setting": {
            "errorLimit": {
                "record": 1024
            }
        }
    }
}

上述配置用户指定了errorLimit上限为1024条record,当Job在传输过程中出现脏数据记录数大于1024,Job报错退出。同样,用户可以指定脏数据占总体数据传输记录数的百分比,如果大于该值,Job报错退出:

  • configuration.setting.speed (流量控制)

CDP Job支持对通道流量控制,即用户可以对单个Job分配带宽最大限制。CDP公测期间,最大Job流量阈值为5MB/s,CDP将直接报错。注意流量度量值是CDP本身的度量值,不代表实际网卡流量。通常情况下,网卡流量往往是CDP通道流量膨胀到1至2倍左右,实际流量膨胀看具体的数据存储系统传输序列化情况。配置如下:

{
    "type": "job",
    "configuration": {
        "setting": {
            "speed": {
                "mbps": 1  //代表1MB/s的传输带宽
            }
        }
    }
}

最后更新:2016-11-23 16:03:59

  上一篇:go Job配置约定__作业配置说明_使用手册_数据集成-阿里云
  下一篇:go MySQLReader__Reader插件_使用手册_数据集成-阿里云