713
阿裏雲
同步概念__產品概念_產品簡介_數據集成-阿裏雲
廣義的數據同步是指為保持兩端數據一致性而進行數據傳輸過程。一般來講,數據同步是為保證源宿兩端數據邏輯的一致性,將數據從數據源移動到數據目的端,並伴隨一定的數據轉換或者清洗的過程。在CDP的功能邊界中,數據同步定義為雲上各種存儲產品之間進行的數據轉移過程。
二、數據同步的要素
CDP同步核心概念主要由三個要素構成:
- 數據源 : 指數據同步的數據源存儲,包括尋址信息(包括可能的IP、庫等信息,用以同步尋址)、同步內容(包括同步的表、字段信息等)、控製信息(編碼清洗等)。
- 數據目的端 : 指數據同步的數據目的端存儲,包括尋址信息(包括IP、庫等信息,用以同步尋址)以及同步內容(包括同步的表)、控製信息(髒數據處理等)。
- 數據轉換過程 : 指數據同步過程中存在的數據轉換過程,泛指數據的計算、清洗等過程,該過程不是必要條件。
同步過程 = {X | X = }
三、數據同步的種類
離線數據同步
離線數據同步指的是數據周期性(例如每天、每周、每月等)、成批量地從源端係統傳輸到目標端係統。對於離線數據同步係統,數據以讀取Snapshot(快照)的方式從源端傳輸到目的端。離線同步存在生命周期,一個離線同步的任務有起止同樣也有結束狀態。
CDP中使用Job概念來描述和定義離線同步任務。
流式數據同步
數據以實時或者準實時時延,將變化的變更日誌從源端係統傳輸到目標端係統。對於流式數據同步係統,數據以Stream(變更流水)的方式從源端傳輸到目的端。實時同步不存在任務自動結束,而將數據的變化日誌同步一直持續下去。
CDP暫不支持流式數據同步模型。
無論是數據流式同步還是離線同步(批處理數據同步),同步的過程都包含上述同步核心要素,也即提取E(Extract)、轉換T(Transform)、加載L(Load)。
最後更新:2016-11-24 11:23:47
上一篇:
產品與技術__產品簡介_數據集成-阿裏雲
下一篇:
Pipeline(數據管道)__產品概念_產品簡介_數據集成-阿裏雲
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲