閱讀871 返回首頁    go windows


產品與技術__產品簡介_數據集成-阿裏雲

CDP定義隻完成數據同步/傳輸過程,並且整體數據傳輸過程完全控製於CDP同步集群模型下,同步的通道以及同步數據流對用戶完全隔離。同時,CDP本身不提供傳輸同步數據流的消費功能,即用戶不能直接通過CDP的API消費數據流,所有針對數據操作,用戶必須在同步數據流兩端存儲端操作。如下圖所示:

image

二、技術與原理

CDP在阿裏雲上提供一套分布式離線數據同步平台,同時提供一套抽象化的數據抽取插件(稱之為Reader)、數據寫入插件(稱之為Writer),並基於此框架設計一套簡化版的中間數據傳輸格式,從而達到任意結構化、半結構化數據源之間數據傳輸之目的。從用戶角度來看,一個CDP運行Job示意圖如下:

image

上述中,虛線代表API調用控製,灰色方向箭頭代表數據流向。圓形節點代表底層一台數據同步執行節點,黑色節點代表正在執行當前數據同步業務的執行節點。下麵簡要描述用戶使用CDP Job API觸發調用CDP的Job同步過程:

• 用戶使用CDP Job啟動API,向CDP服務端發起調用,提交一個離線數據同步Job。

• CDP收到Job API請求後,將負責做必要的安全和權限校驗,待校驗通過後,CDP會下發相應的Job到執行集群節點啟動離線數據同步任務。

• Job啟動後,根據用戶提供源端(Reader)、目的端(Writer)的配置信息,加載並初始化相關插件,連接兩端數據源,開始數據同步工作。

• Job運行過程中,將隨心跳向CDP匯報當前進度、速度、數據量等關鍵運行指標,用戶根據Job的狀態API實時獲取該Job運行狀態,直至Job運行結束(成功或者失敗)。

最後更新:2016-11-24 11:23:47

  上一篇:go 服務SLA__公眾趨勢分析-阿裏雲
  下一篇:go 同步概念__產品概念_產品簡介_數據集成-阿裏雲