阅读871 返回首页    go windows


产品与技术__产品简介_数据集成-阿里云

CDP定义只完成数据同步/传输过程,并且整体数据传输过程完全控制于CDP同步集群模型下,同步的通道以及同步数据流对用户完全隔离。同时,CDP本身不提供传输同步数据流的消费功能,即用户不能直接通过CDP的API消费数据流,所有针对数据操作,用户必须在同步数据流两端存储端操作。如下图所示:

image

二、技术与原理

CDP在阿里云上提供一套分布式离线数据同步平台,同时提供一套抽象化的数据抽取插件(称之为Reader)、数据写入插件(称之为Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输之目的。从用户角度来看,一个CDP运行Job示意图如下:

image

上述中,虚线代表API调用控制,灰色方向箭头代表数据流向。圆形节点代表底层一台数据同步执行节点,黑色节点代表正在执行当前数据同步业务的执行节点。下面简要描述用户使用CDP Job API触发调用CDP的Job同步过程:

• 用户使用CDP Job启动API,向CDP服务端发起调用,提交一个离线数据同步Job。

• CDP收到Job API请求后,将负责做必要的安全和权限校验,待校验通过后,CDP会下发相应的Job到执行集群节点启动离线数据同步任务。

• Job启动后,根据用户提供源端(Reader)、目的端(Writer)的配置信息,加载并初始化相关插件,连接两端数据源,开始数据同步工作。

• Job运行过程中,将随心跳向CDP汇报当前进度、速度、数据量等关键运行指标,用户根据Job的状态API实时获取该Job运行状态,直至Job运行结束(成功或者失败)。

最后更新:2016-11-24 11:23:47

  上一篇:go 服务SLA__公众趋势分析-阿里云
  下一篇:go 同步概念__产品概念_产品简介_数据集成-阿里云