閱讀540 返回首頁    go windows


Job主體配置__作業配置說明_使用手冊_數據集成-阿裏雲

一、Job基本配置

Job基本配置定義了一個Job基礎的、框架級別的配置信息,包括:

{
    "type": "job",  //用戶提交同步類型,包括Job/Stream
    "traceId": "bazhen_001",  //用戶用來此traceId跟蹤作業
    "version": "1.0",   //版本號,公測版本CDP目前僅支持1.0版本格式。
    "configuration": {
        "settting": {
            "key": "value"
        },
        "reader": {
            "plugin": "mysql",  //這裏填寫源頭數據存儲類型的名稱
            "parameter": {
                "key": "value"
            }
        },
        "writer": {
            "plugin": "odps",   //這裏填寫目標端數據存儲類型的名稱
            "parameter": {
                "key": "value"
            }
        }
    }
}

其中:

type

指定本次提交同步任務是Job、Stream。

traceId

traceId用來跟蹤本次提交的Job。traceId是由用戶指定,並且建議用戶按照自己業務邏輯生成唯一ID,以方便後期的運維工作。

CDP隻提供觸發式數據同步API,CDP本身不提供Job存儲、Job定期調度、Job的DAG依賴觸發等各類涉及工作流調度功能。因此同一份Job如果用戶多次(非並行)進行提交,CDP將為每次提交的Job分配單個CDP集群(例如杭州集群)唯一的運行ID,該ID為Job的主鍵ID,由CDP服務生成並分配,CDP保證全局唯一性。如果用戶希望對於每個數據同步任務配置使用同一個ID進行追蹤,那麼請為每個數據同步作業分配單一的traceID。

例如阿裏雲公有雲產品"采雲間"係統,其底層數據集成功能通過CDP完成。采雲間使用"dpc+采雲間作業ID"作為traceId向CDP提交Job。這樣采雲間可以方便的使用采雲間作業ID在CDP中獲取並追蹤該采雲間作業近期所有的運行狀況。

version

目前所有Job僅支持版本號"1.0",用戶隻能填寫版本號為"1.0"。

二、Job Setting配置

Job的setting域描述的是Job配置參數中,排除源端、目的端外有關Job全局信息的配置參數,比如Job流控、Job類型轉換。總體如下:

{
    "type": "job",
    "traceId": "bazhen_0001",
    "version": "1.0",
    "configuration": {
        "setting": {
            "errorLimit": {},
            "speed": {},
            "column": {}
        }
    }
}
  • configuration.setting.column(類型轉換)

CDP支持最基本的類型轉換,用戶可以自定義設定類型轉換配置,用以描述一些基本的字段類型轉換信息,包括:

• datetimeFormat: 設定datetime類型和string類型的轉換format。

• timeFormat: 設定time類型和string類型的轉換format。

• dateFormat: 設定date類型和string類型的轉換format。

• encoding: 設定byte類型和string類型的轉換編碼格式。

目前支持的類型轉換格式配置如下:

{
    "type": "job",
    "traceId": "bazhen_0001",
    "version": "1.0",
    "configuration": {
        "setting": {
            "column": {
                "datetimeFormat": "yyyy-MM-dd HH:mm:ss",
                "timeFormat": "HH:mm:ss",
                "dateFormat": "yyyy-MM-dd",
                "encoding": "utf-8"
            }
        }
    }
}
  • configuration.setting.errorLimit(髒數據控製)

CDP Job支持用戶對於髒數據的自定義監控和告警,包括對髒數據最大記錄數閾值或者髒數據占比閾值,當Job傳輸過程出現的髒數據大於用戶指定的數量/百分比,CDPJob報錯退出。如下:

{
    "type": "job",   
    "version": "1.0",
    "configuration": {
        "setting": {
            "errorLimit": {
                "record": 1024
            }
        }
    }
}

上述配置用戶指定了errorLimit上限為1024條record,當Job在傳輸過程中出現髒數據記錄數大於1024,Job報錯退出。同樣,用戶可以指定髒數據占總體數據傳輸記錄數的百分比,如果大於該值,Job報錯退出:

  • configuration.setting.speed (流量控製)

CDP Job支持對通道流量控製,即用戶可以對單個Job分配帶寬最大限製。CDP公測期間,最大Job流量閾值為5MB/s,CDP將直接報錯。注意流量度量值是CDP本身的度量值,不代表實際網卡流量。通常情況下,網卡流量往往是CDP通道流量膨脹到1至2倍左右,實際流量膨脹看具體的數據存儲係統傳輸序列化情況。配置如下:

{
    "type": "job",
    "configuration": {
        "setting": {
            "speed": {
                "mbps": 1  //代表1MB/s的傳輸帶寬
            }
        }
    }
}

最後更新:2016-11-23 16:03:59

  上一篇:go Job配置約定__作業配置說明_使用手冊_數據集成-阿裏雲
  下一篇:go MySQLReader__Reader插件_使用手冊_數據集成-阿裏雲