713
阿里云
同步概念__产品概念_产品简介_数据集成-阿里云
广义的数据同步是指为保持两端数据一致性而进行数据传输过程。一般来讲,数据同步是为保证源宿两端数据逻辑的一致性,将数据从数据源移动到数据目的端,并伴随一定的数据转换或者清洗的过程。在CDP的功能边界中,数据同步定义为云上各种存储产品之间进行的数据转移过程。
二、数据同步的要素
CDP同步核心概念主要由三个要素构成:
- 数据源 : 指数据同步的数据源存储,包括寻址信息(包括可能的IP、库等信息,用以同步寻址)、同步内容(包括同步的表、字段信息等)、控制信息(编码清洗等)。
- 数据目的端 : 指数据同步的数据目的端存储,包括寻址信息(包括IP、库等信息,用以同步寻址)以及同步内容(包括同步的表)、控制信息(脏数据处理等)。
- 数据转换过程 : 指数据同步过程中存在的数据转换过程,泛指数据的计算、清洗等过程,该过程不是必要条件。
同步过程 = {X | X = }
三、数据同步的种类
离线数据同步
离线数据同步指的是数据周期性(例如每天、每周、每月等)、成批量地从源端系统传输到目标端系统。对于离线数据同步系统,数据以读取Snapshot(快照)的方式从源端传输到目的端。离线同步存在生命周期,一个离线同步的任务有起止同样也有结束状态。
CDP中使用Job概念来描述和定义离线同步任务。
流式数据同步
数据以实时或者准实时时延,将变化的变更日志从源端系统传输到目标端系统。对于流式数据同步系统,数据以Stream(变更流水)的方式从源端传输到目的端。实时同步不存在任务自动结束,而将数据的变化日志同步一直持续下去。
CDP暂不支持流式数据同步模型。
无论是数据流式同步还是离线同步(批处理数据同步),同步的过程都包含上述同步核心要素,也即提取E(Extract)、转换T(Transform)、加载L(Load)。
最后更新:2016-11-24 11:23:47
上一篇:
产品与技术__产品简介_数据集成-阿里云
下一篇:
Pipeline(数据管道)__产品概念_产品简介_数据集成-阿里云
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云