Job(作業)__產品概念_產品簡介_數據集成-阿裏雲
Job是CDP進行數據批量同步的基本業務單位,CDP Job麵向表級別數據同步,Job描述了一個數據同步作業完成一次數據同步任務所需要的信息,包括E(Extract)、T(Transform)、L(Load)等用戶描述信息,也包括作業的運行信息,例如同步數據量、同步速率、當前進度等計量信息,還包括生命周期等等,Job運行完畢即完成了一次數據同步工作。
二、作用
- 作業模型
CDP本身不保存作業信息,CDP對用戶提交每一次作業都生成一個Job*對象,並為其分配了唯一的Job ID。對於用戶多次提交同一個作業,CDP識別為多次提交,並分配多個Job ID。即對於CDP同步任務(批處理同步和流式同步)而言,CDP提供觸發式任務服務能力。 類似於Hadoop的作業概念模型,CDP將提交的一個實例化作業抽象為Job,運行一次即是一個獨立的Job。
- 調度模型
由於Pipeline管道資源控製,該Job可能無法及時被調度啟動。CDP對於離線同步調度策略采用業界通用的批處理係統調度策略,支持FIFO的算法(先進先出),也利用貪心算法進行局部最優處理,盡可能保證您申請的Pipeline資源能夠最大限度被利用。
例如,當您申請了額度為5MB/s的Pipeline先後被客戶端提交:3MB/s的Job、4MB/s的Job、2MB/s的Job,由於3MB/s的Job啟動後當前Pipeline隻剩餘2MB/s帶寬 (5 - 3 = 2),當4MB/s的Job到達CDP時無法啟動 (5 - 3 < 4),隻能等待直到3MB/s的Job運行結束。而到2MB/s的Job提交到達CDP時,CDP會因為能為該Job找到足夠資源運行(5 - 3 >=2),那麼將直接啟動該帶寬為2MB/s的Job。最後帶寬數為4MB/s的Job需要一直等到3MB/s和2MB/s的Job完成後才能啟動。該處理策略可以將Pipeline資源數最大限度利用起來。
- 約束限製
• CDP Job暫未能實現對數據源schema信息同步功能,因此用戶需要提前在目的端數據源進行建表操作,並且最好做到目標表的字段個數、類型與源端大致一致。
• CDP Job按照源宿兩端Column的順序進行傳輸,而不是依靠Column名稱或者類型進行,例如源端Column為a,b,c三列,目標端為x,y,z三列。CDP將源端數據a,b,c按照目標端數據x,y,z順序導入。
• CDP本身存在字段類型隱式轉換規則,支持常見的轉換規則例如整形、浮點型可以自動轉為字符串類型。
最後更新:2016-11-24 11:23:47
上一篇:
Pipeline(數據管道)__產品概念_產品簡介_數據集成-阿裏雲
下一篇:
權限和安全__產品概念_產品簡介_數據集成-阿裏雲
雲盤參數和性能測試方法__磁盤_產品簡介_雲服務器 ECS-阿裏雲
查詢可用專線接入點信息__高速通道相關接口_API 參考_雲服務器 ECS-阿裏雲
刪除表__從 SQL 到 NoSQL_快速入門_表格存儲-阿裏雲
OpenID Connect認證__使用手冊(開放API)_API 網關-阿裏雲
單行數據操作__Java-SDK_SDK 參考_表格存儲-阿裏雲
如何參加線上培訓課程__線上培訓課程_上雲培訓-阿裏雲
創建 ECS 實例__快速入門_負載均衡-阿裏雲
集群腳本__集群_用戶指南_E-MapReduce-阿裏雲
雲服務器 ECS Linux SSH 連接交互過程簡介__遠程登錄 (SSH)_Linux操作運維問題_雲服務器 ECS-阿裏雲
使用資源示例__示例程序_MapReduce_大數據計算服務-阿裏雲
相關內容
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲