閱讀713 返回首頁    go 阿裏雲


同步概念__產品概念_產品簡介_數據集成-阿裏雲

廣義的數據同步是指為保持兩端數據一致性而進行數據傳輸過程。一般來講,數據同步是為保證源宿兩端數據邏輯的一致性,將數據從數據源移動到數據目的端,並伴隨一定的數據轉換或者清洗的過程。在CDP的功能邊界中,數據同步定義為雲上各種存儲產品之間進行的數據轉移過程。

二、數據同步的要素

CDP同步核心概念主要由三個要素構成:

  • 數據源 : 指數據同步的數據源存儲,包括尋址信息(包括可能的IP、庫等信息,用以同步尋址)、同步內容(包括同步的表、字段信息等)、控製信息(編碼清洗等)。
  • 數據目的端 : 指數據同步的數據目的端存儲,包括尋址信息(包括IP、庫等信息,用以同步尋址)以及同步內容(包括同步的表)、控製信息(髒數據處理等)。
  • 數據轉換過程 : 指數據同步過程中存在的數據轉換過程,泛指數據的計算、清洗等過程,該過程不是必要條件。

同步過程 = {X | X = }

三、數據同步的種類

  • 離線數據同步

    離線數據同步指的是數據周期性(例如每天、每周、每月等)、成批量地從源端係統傳輸到目標端係統。對於離線數據同步係統,數據以讀取Snapshot(快照)的方式從源端傳輸到目的端。離線同步存在生命周期,一個離線同步的任務有起止同樣也有結束狀態。

    CDP中使用Job概念來描述和定義離線同步任務。

  • 流式數據同步

    數據以實時或者準實時時延,將變化的變更日誌從源端係統傳輸到目標端係統。對於流式數據同步係統,數據以Stream(變更流水)的方式從源端傳輸到目的端。實時同步不存在任務自動結束,而將數據的變化日誌同步一直持續下去。

    CDP暫不支持流式數據同步模型。

    無論是數據流式同步還是離線同步(批處理數據同步),同步的過程都包含上述同步核心要素,也即提取E(Extract)、轉換T(Transform)、加載L(Load)。

最後更新:2016-11-24 11:23:47

  上一篇:go 產品與技術__產品簡介_數據集成-阿裏雲
  下一篇:go Pipeline(數據管道)__產品概念_產品簡介_數據集成-阿裏雲