阅读724 返回首页    go windows go windows


产品术语__产品简介_数据集成-阿里云

B

  • 白名单

数据集成连接RDS(Mysql)同步数据需要使用Mysql标准协议连接。RDS默认允许所有IP连接,但如果用户在RDS配置指定了IP白名单,则用户需要添加数据集成执行节点到IP白名单。用户没有指定RDS白名单情况下,不需要给数据集成提供白名单。

C

  • 插件

分为读插件(reader)和写插件(writer),读插件负责将数据从源端存储系统抽取出来并转化为中间格式,写插件负责将中间格式的数据写入到目标端存储系统。

  • Console

数据集成提供的基于命令⾏交互⽅式的操作管理⼯具。

  • 重跑与幂等

数据集成定位在为各类数据存储提供数据传输通道功能,在定期自动化运行数据同步的场景,如数仓ETL流程,要求所有的数据同步任务能够做到多次同步和单次同步最终结果一致。例如当一次数据同步任务出现Fail,用户可以直接重启任务而无需到目的数据端进行线上数据清理操作。这在数仓领域属于作业幂等性要求。数据集成作业的幂等性是通过Writer插件的前置条件来实现的,例如用户可在ODPS配置中提供数据写入前的清理动作,保证每次数据导入前都会先清除当前表或者分区的现有数据,这样能够保证数据多次写入的结果和一次性写入结果一致。

J

  • 结构化数据

结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)。

非结构化数据,包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。

所谓半结构化数据,就是介于结构化数据和非结构化数据之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

  • JOB(作业)

JOB是同步的基本业务单元,描述了完成一次数据同步所需要的全部配置信息,包括源端配置,目的端配置,出错限制等。

L

  • 离线同步

指数据周期性(例如每天、每周、每 等)、成批量地从源端系统传输到目标端系统。对于离线数据同步系统,数据以读取Snapshot(快照)的方式从源端传输到目的端。

  • 流式同步

数据以实时或者准实时的时延,将变化的变更日志从源端系统传输到目标端系统。对于流式数据同步系统,数据以Stream(变更流水)的方式从源端传输到目的端。实时同步不存在任务结束,将数据的变化日志同步一直持续下去。数据集成暂不支持流式数据同步模型。

  • 流量控制

支持对通道流量控制,即用户可以对单个Job分配带宽最大限制。注意流量度量值是CDP本身的度量值,不代表实际网卡流量。

P

  • Pipeline

Pipeline是数据集成权限管理、资源隔离的基本单元,同时也是数据同步作业运行的容器。用户进入数据集成后,须先创建一个Pipeline。系统权限隔离指不同Pipeline下的用户相互之间是无法管控对方的Pipeline及下属所有对象信息,包括作业配置信息、作业传输数据流信息。运行资源隔离指不同Pipeline下的用户相互之间环境完全隔离,保证不同用户不同Pipeline下的作业运行环境不再相互干扰。

  • Pipeline Owner

指创建Pipeline的阿里云账号,Owner同时也是为Pipeline承担费用的人。一个Pipeline的拥有者目前仅支持唯一一个用户。

T

  • 通道

指支持的数据存储类型,如mysql、odps等。

  • 同步

一般来讲,数据同步是为保证源宿两端数据逻辑的一致性,将数据从数据源移动到数据目的端,并伴随一定的数据转换或者清洗的过程。

  • Task

数据集成在进行数据同步过程中,为了提升数据传输吞吐能力,通常对传输数据集进行细粒度切分(称之为Task),并启动多线程乃至于多进程容器运行Task进行数据传输服务。

Z

  • 增量同步

数据集成通过使用Where过滤条件做增量抽取,具体来讲,在源表上增加 个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过在where条件中放置类似于gmt_modified > sysdate - 1 来决定增量抽取哪些数据。

  • 脏数据

数据同步通常会对接源宿两端数据存储,需要根据源宿两端数据源的具体信息适配和转换相应的数据内容。在传输过程中,可能存在由于两端元数据不匹配或者本身的业务数据传输转换失败(例如OSS上一个定义为Integer的类型存放了”abc”字符串),CDP将自动识别上述异常情况,并提供自动记录和容错机制,最大限度保证数据传输的可靠性和健壮性。数据集成基于自动识别脏数据功能上,还提供数据传输容错上限。例如,由于历史遗留问题, 用户知晓脏数据影响情况并且对于源端脏数据有一定容忍度,则可以配置单个Job最大脏数据条数阈值。

最后更新:2016-05-06 10:43:30

  上一篇:go 权限和安全__产品概念_产品简介_数据集成-阿里云
  下一篇:go 创建普通Pipeline__快速开始_数据集成-阿里云