991
群英
数据同步简介__数据同步手册_用户操作指南_大数据开发套件-阿里云
数据同步 是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台,为阿里云大数据计算引擎(包括MaxCompute、AnalyticDB、OSPS)提供离线(批量)的数据进出通道。
离线(批量)数据同步简介
离线(批量)的数据通道主要通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(称之为Reader)、数据写入插件(称之为Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输之目的。
可以参考此图:
支持数据源类型
数据源分类 | 数据源类型 | 抽取(Reader) | 导入(Writer) | 经典网络 | 专有网络 | 本地IDC网络 |
---|---|---|---|---|---|---|
关系型数据库 | RDS-Mysql | 支持 | 支持 | 支持 | 支持 | 不存在 |
关系型数据库 | RDS-SqlServer | 支持 | 支持 | 支持 | 支持 | 不存在 |
关系型数据库 | RDS-PostgreSql | 支持 | 支持 | 支持 | 支持 | 不存在 |
关系型数据库 | Mysql | 支持 | 支持 | 支持 | 规划中 | 规划中 |
关系型数据库 | SqlServer | 支持 | 支持 | 支持 | 规划中 | 规划中 |
关系型数据库 | PostgreSql | 支持 | 支持 | 支持 | 规划中 | 规划中 |
关系型数据库 | Oracle | 支持 | 支持 | 支持 | 规划中 | 规划中 |
关系型数据库 | DRDS | 支持 | 支持 | 支持 | 规划中 | 规划中 |
大数据存储 | ODPS | 支持 | 支持 | 支持 | 不存在 | 不存在 |
大数据存储 | ADS | 不支持 | 支持 | 支持 | 不存在 | 不存在 |
非结构化存储 | OSS | 支持 | 支持 | 支持 | 不存在 | 不存在 |
非结构化存储 | FTP | 支持 | 支持 | 支持 | 规划中 | 规划中 |
因为每个数据源的配置信息差距较大,需要根据使用情况详细查询参数配置信息。在数据源配置、作业配置页面提供了详细描述,请根据自己情况进行查询使用。
同步开发说明
同步开发提供两种开发模式:向导模式、脚本模式(规划中)。
- 向导模式:提供向导式的开发引导,通过可视化的填写和下一步的引导,帮助快速完成数据同步任务的配置工作。优点是:学习成本低。缺点是无法享受到一些高级功能。
- 脚本模式:用户可以通过直接编写数据同步的JSON脚本来完成数据同步开发,适合高级用户,学习成本较高。优点是:提供更丰富灵活的能力,可以做精细化的配置管理。
注意:
向导模式生成的代码可以转换为脚本模式,此转换为单向操作,转换完成后无法恢复到向导模式。因为脚本模式能力是向导模式的超集。
代码编写前需要完成 数据源配置、目标表 的创建。
网络类型说明
网络类型分为:经典网络、专有网络(VPC)、本地IDC网络
- 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责,更适合对网络易用性要求比较高的客户。
- 专有网络:基于阿里云构建出一个隔离的网络环境。您可以完全掌控自己的虚拟网络,包括选择自有的 IP 地址范围,划分网段,以及配置路由表和网关。
- 本地IDC网络:用户自身构建机房的网络环境,与阿里云网络是隔离不可用的。
经典网络和专有网络相关问题请参考阿里云文档中心《经典网络和VPC常见问题FAQ》
补充说明:
公网连接可以支持,网络类型选择经典网络即可。需要注意公网带宽的速度和相关网络费用消耗。无特殊情况不建议使用。
规划中的网络连接,进行数据同步,可以使用本地新增运行资源+脚本模式的方案进行数据同步传输。或者使用SHELL+DataX方案,此方案参考此文章:https://help.aliyun.com/document_detail/45055.html
约束与限制
支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等, 要求具体同步数据必须抽象为结构化数据)的数据同步。换言之,Data Integration支持传输能够抽象为逻辑二维表的数据同步,其他完全非结构化数据,例如OSS中存放的一段MP3,Data Integration不支持将其同步到MaxCompute 。
支持且仅支持单个地域内数据存储相互同步、交换的数据同步需求,不支持多个地域之间数据同步。例如,暂时不支持将青岛RDS数据同步到上海MaxCompute 集群上来。
- 部分地域通过经典网络是可以传输的,不能保证。如果必须使用且测试经典网络不通,可以考虑使用公网方式连接。
仅完成数据同步(传输),本身不提供数据流的消费方式
数据同步任务配置可以参考快速开始->创建数据同步任务。
最后更新:2016-12-14 17:20:48
上一篇:
调度资源__组织管理手册_用户操作指南_大数据开发套件-阿里云
下一篇:
AnalyticDB数据源配置__数据源配置_数据同步手册_用户操作指南_大数据开发套件-阿里云
试问谁与争锋?阿里云已成为与微软、亚马逊并驾齐驱的顶级巨头!
伸缩配置与规则问题__常见问题_弹性伸缩-阿里云
容器服务监控__云服务监控_用户指南_云监控-阿里云
DeleteBucketLogging__关于Bucket的操作_API 参考_对象存储 OSS-阿里云
多区域支持__点播SDK_SDK手册_视频点播-阿里云
购买方式__购买指导_DDoS 高防IP-阿里云
添加端口转发规则__NAT网关相关接口_API 参考_云服务器 ECS-阿里云
步骤 1:数据源配置__创建监控任务_用户指南_业务实时监控服务 ARMS-阿里云
查询消费状态__消费管理相关接口_Open API_消息队列 MQ-阿里云
计费常见问题__计量计费_大数据计算服务-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云