閱讀652 返回首頁    go iPhone_iPad_Mac_apple


Job(作業)__產品概念_產品簡介_數據集成-阿裏雲

Job是CDP進行數據批量同步的基本業務單位,CDP Job麵向表級別數據同步,Job描述了一個數據同步作業完成一次數據同步任務所需要的信息,包括E(Extract)、T(Transform)、L(Load)等用戶描述信息,也包括作業的運行信息,例如同步數據量、同步速率、當前進度等計量信息,還包括生命周期等等,Job運行完畢即完成了一次數據同步工作。

二、作用

  • 作業模型

CDP本身不保存作業信息,CDP對用戶提交每一次作業都生成一個Job*對象,並為其分配了唯一的Job ID。對於用戶多次提交同一個作業,CDP識別為多次提交,並分配多個Job ID。即對於CDP同步任務(批處理同步和流式同步)而言,CDP提供觸發式任務服務能力。 類似於Hadoop的作業概念模型,CDP將提交的一個實例化作業抽象為Job,運行一次即是一個獨立的Job。

  • 調度模型

由於Pipeline管道資源控製,該Job可能無法及時被調度啟動。CDP對於離線同步調度策略采用業界通用的批處理係統調度策略,支持FIFO的算法(先進先出),也利用貪心算法進行局部最優處理,盡可能保證您申請的Pipeline資源能夠最大限度被利用。

例如,當您申請了額度為5MB/s的Pipeline先後被客戶端提交:3MB/s的Job、4MB/s的Job、2MB/s的Job,由於3MB/s的Job啟動後當前Pipeline隻剩餘2MB/s帶寬 (5 - 3 = 2),當4MB/s的Job到達CDP時無法啟動 (5 - 3 < 4),隻能等待直到3MB/s的Job運行結束。而到2MB/s的Job提交到達CDP時,CDP會因為能為該Job找到足夠資源運行(5 - 3 >=2),那麼將直接啟動該帶寬為2MB/s的Job。最後帶寬數為4MB/s的Job需要一直等到3MB/s和2MB/s的Job完成後才能啟動。該處理策略可以將Pipeline資源數最大限度利用起來。

  • 約束限製

• CDP Job暫未能實現對數據源schema信息同步功能,因此用戶需要提前在目的端數據源進行建表操作,並且最好做到目標表的字段個數、類型與源端大致一致。

• CDP Job按照源宿兩端Column的順序進行傳輸,而不是依靠Column名稱或者類型進行,例如源端Column為a,b,c三列,目標端為x,y,z三列。CDP將源端數據a,b,c按照目標端數據x,y,z順序導入。

• CDP本身存在字段類型隱式轉換規則,支持常見的轉換規則例如整形、浮點型可以自動轉為字符串類型。

最後更新:2016-11-24 11:23:47

  上一篇:go Pipeline(數據管道)__產品概念_產品簡介_數據集成-阿裏雲
  下一篇:go 權限和安全__產品概念_產品簡介_數據集成-阿裏雲