阅读713 返回首页    go 阿里云


同步概念__产品概念_产品简介_数据集成-阿里云

广义的数据同步是指为保持两端数据一致性而进行数据传输过程。一般来讲,数据同步是为保证源宿两端数据逻辑的一致性,将数据从数据源移动到数据目的端,并伴随一定的数据转换或者清洗的过程。在CDP的功能边界中,数据同步定义为云上各种存储产品之间进行的数据转移过程。

二、数据同步的要素

CDP同步核心概念主要由三个要素构成:

  • 数据源 : 指数据同步的数据源存储,包括寻址信息(包括可能的IP、库等信息,用以同步寻址)、同步内容(包括同步的表、字段信息等)、控制信息(编码清洗等)。
  • 数据目的端 : 指数据同步的数据目的端存储,包括寻址信息(包括IP、库等信息,用以同步寻址)以及同步内容(包括同步的表)、控制信息(脏数据处理等)。
  • 数据转换过程 : 指数据同步过程中存在的数据转换过程,泛指数据的计算、清洗等过程,该过程不是必要条件。

同步过程 = {X | X = }

三、数据同步的种类

  • 离线数据同步

    离线数据同步指的是数据周期性(例如每天、每周、每月等)、成批量地从源端系统传输到目标端系统。对于离线数据同步系统,数据以读取Snapshot(快照)的方式从源端传输到目的端。离线同步存在生命周期,一个离线同步的任务有起止同样也有结束状态。

    CDP中使用Job概念来描述和定义离线同步任务。

  • 流式数据同步

    数据以实时或者准实时时延,将变化的变更日志从源端系统传输到目标端系统。对于流式数据同步系统,数据以Stream(变更流水)的方式从源端传输到目的端。实时同步不存在任务自动结束,而将数据的变化日志同步一直持续下去。

    CDP暂不支持流式数据同步模型。

    无论是数据流式同步还是离线同步(批处理数据同步),同步的过程都包含上述同步核心要素,也即提取E(Extract)、转换T(Transform)、加载L(Load)。

最后更新:2016-11-24 11:23:47

  上一篇:go 产品与技术__产品简介_数据集成-阿里云
  下一篇:go Pipeline(数据管道)__产品概念_产品简介_数据集成-阿里云