产品术语__产品简介_数据集成-阿里云
B
- 白名单
数据集成连接RDS(Mysql)同步数据需要使用Mysql标准协议连接。RDS默认允许所有IP连接,但如果用户在RDS配置指定了IP白名单,则用户需要添加数据集成执行节点到IP白名单。用户没有指定RDS白名单情况下,不需要给数据集成提供白名单。
C
- 插件
分为读插件(reader)和写插件(writer),读插件负责将数据从源端存储系统抽取出来并转化为中间格式,写插件负责将中间格式的数据写入到目标端存储系统。
- Console
数据集成提供的基于命令⾏交互⽅式的操作管理⼯具。
- 重跑与幂等
数据集成定位在为各类数据存储提供数据传输通道功能,在定期自动化运行数据同步的场景,如数仓ETL流程,要求所有的数据同步任务能够做到多次同步和单次同步最终结果一致。例如当一次数据同步任务出现Fail,用户可以直接重启任务而无需到目的数据端进行线上数据清理操作。这在数仓领域属于作业幂等性要求。数据集成作业的幂等性是通过Writer插件的前置条件来实现的,例如用户可在ODPS配置中提供数据写入前的清理动作,保证每次数据导入前都会先清除当前表或者分区的现有数据,这样能够保证数据多次写入的结果和一次性写入结果一致。
J
- 结构化数据
结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)。
非结构化数据,包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。
所谓半结构化数据,就是介于结构化数据和非结构化数据之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
- JOB(作业)
JOB是同步的基本业务单元,描述了完成一次数据同步所需要的全部配置信息,包括源端配置,目的端配置,出错限制等。
L
- 离线同步
指数据周期性(例如每天、每周、每 等)、成批量地从源端系统传输到目标端系统。对于离线数据同步系统,数据以读取Snapshot(快照)的方式从源端传输到目的端。
- 流式同步
数据以实时或者准实时的时延,将变化的变更日志从源端系统传输到目标端系统。对于流式数据同步系统,数据以Stream(变更流水)的方式从源端传输到目的端。实时同步不存在任务结束,将数据的变化日志同步一直持续下去。数据集成暂不支持流式数据同步模型。
- 流量控制
支持对通道流量控制,即用户可以对单个Job分配带宽最大限制。注意流量度量值是CDP本身的度量值,不代表实际网卡流量。
P
- Pipeline
Pipeline是数据集成权限管理、资源隔离的基本单元,同时也是数据同步作业运行的容器。用户进入数据集成后,须先创建一个Pipeline。系统权限隔离指不同Pipeline下的用户相互之间是无法管控对方的Pipeline及下属所有对象信息,包括作业配置信息、作业传输数据流信息。运行资源隔离指不同Pipeline下的用户相互之间环境完全隔离,保证不同用户不同Pipeline下的作业运行环境不再相互干扰。
- Pipeline Owner
指创建Pipeline的阿里云账号,Owner同时也是为Pipeline承担费用的人。一个Pipeline的拥有者目前仅支持唯一一个用户。
T
- 通道
指支持的数据存储类型,如mysql、odps等。
- 同步
一般来讲,数据同步是为保证源宿两端数据逻辑的一致性,将数据从数据源移动到数据目的端,并伴随一定的数据转换或者清洗的过程。
- Task
数据集成在进行数据同步过程中,为了提升数据传输吞吐能力,通常对传输数据集进行细粒度切分(称之为Task),并启动多线程乃至于多进程容器运行Task进行数据传输服务。
Z
- 增量同步
数据集成通过使用Where过滤条件做增量抽取,具体来讲,在源表上增加 个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过在where条件中放置类似于gmt_modified > sysdate - 1 来决定增量抽取哪些数据。
- 脏数据
数据同步通常会对接源宿两端数据存储,需要根据源宿两端数据源的具体信息适配和转换相应的数据内容。在传输过程中,可能存在由于两端元数据不匹配或者本身的业务数据传输转换失败(例如OSS上一个定义为Integer的类型存放了”abc”字符串),CDP将自动识别上述异常情况,并提供自动记录和容错机制,最大限度保证数据传输的可靠性和健壮性。数据集成基于自动识别脏数据功能上,还提供数据传输容错上限。例如,由于历史遗留问题, 用户知晓脏数据影响情况并且对于源端脏数据有一定容忍度,则可以配置单个Job最大脏数据条数阈值。
最后更新:2016-05-06 10:43:30
上一篇:
权限和安全__产品概念_产品简介_数据集成-阿里云
下一篇:
创建普通Pipeline__快速开始_数据集成-阿里云
阿里云竟然降价53% 为智慧城市注入新活力
PutBucketLifecycle__关于Bucket的操作_API 参考_对象存储 OSS-阿里云
删除签名密钥__后端签名密钥相关接口_API_API 网关-阿里云
关键组件和流程__产品简介_业务实时监控服务 ARMS-阿里云
Flume MaxCompute Sink插件__数据入云_数据集成-阿里云
购买指导___视频点播-阿里云
Credentials__数据类型_STS API文档_访问控制-阿里云
创建快照__快照_用户指南_云服务器 ECS-阿里云
SetAccountAlias__安全设置接口_RAM API文档_访问控制-阿里云
金融云连接示例(专有网络)__技术分享_技术运维问题_金融云-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云