321
阿里云
配置数据导入任务__基础示例—完整数据开发_场景教程_大数据开发套件-阿里云
原始数据在RDS数据库上,需要用ODPS加工得先把数据导入到ODPS,前面“配置RDS数据源”章节中已经把数据源加好,ODPS源表也已经在前面“创建ODPS表 ”章节中创建好,接下来我们可以开始创建数据导入任务。具体操作如下:
步骤1:在上一章节创建的工作流(tmall_ub_features_demo)设计器的节点组件中向画布拖拽一个数据同步节点组件,进行创建。
■ 名称:s_user_brand_demo。
■ 描述:RDS上同步数据到表s_user_brand_demo。
步骤2:双击该节点或右键查看节点内容进入任务配置界面。
步骤2.1:选择数据来源和目标。
源头默认为单表,选择前面添加的数据源,和对应的原始数据表;目标选择本项目对应的ODPS project,所以数据源即为odps_frist,目标表为s_user_brand_demo表。
步骤2.2:选择要抽取的列,并映射到目标表字段。
选好源和目标表之后,列会先自动按照字段名对应匹配,匹配不到的目标字段留空,默认显示所有源表字段,数据同步任务执行的时候就按该字段配置顺序一一对应读写。
本示例中,目标表字段为3个,字段名与源表字段名一致因此自动按顺序匹配到。源表的字段visit_datetime不需要同步,所以可以鼠标放到该字段上在显示的删除按钮上点击删除。
步骤2.3:数据抽取和加载控制。
同步任务每次执行读原始数据一天的数据写入ODPS目标表一个分区,原始数据时间visit_datetime格式为年月日(yyyymmdd),所以可以用调度业务日期时间参数(${bdp.ststem.bizdate})代替时间值,使得任务每天调度时自动替换成当天业务日期时间。
数据过滤配置:thedate=${bdp.system.bizdate},增量同步。
分区信息配置:${bdp.system.bizdate}。
另外加载控制中的“清理规则”选择“写入前清理已有数据”,主要是考虑到异常情况如原始数据有异常,修复后需要重新导入ODPS,若导入前不清理已有数据,重新导入后目标表数据还是脏数据;选择写入前清理已有数据则清理对应分区的数据后再写入数据(若目标表为非分区表则清空整个表数据再写入)。
步骤2.4:流量与出错控制。
步骤3:配置节点参数。
由于${bdp.system.bizdate}为系统参数,因此参数配置中无需赋值。
步骤4:点击保存。
最后更新:2016-11-23 16:04:08
上一篇:
创建工作流__基础示例—完整数据开发_场景教程_大数据开发套件-阿里云
下一篇:
配置sql任务产出特征表__基础示例—完整数据开发_场景教程_大数据开发套件-阿里云
附录:PPAS 兼容性说明__快速入门(PPAS)_云数据库 RDS 版-阿里云
检测IP信息__辅助工具接口_API 手册_CDN-阿里云
任务维度推送统计__API列表_OpenAPI 1.0_移动推送-阿里云
通过镜像创建 Nginx__快速入门_容器服务-阿里云
技术优势对比__快照_产品简介_云服务器 ECS-阿里云
ALIYUN::ECS::NatGateway__资源列表_资源编排-阿里云
负载均衡支持什么转发方式__常见问题_负载均衡-阿里云
列出转码作业__转码接口_API使用手册_媒体转码-阿里云
日志清洗中关于时间字段date设置的常见问题与解决方法__最佳实践_业务实时监控服务 ARMS-阿里云
表格存储支持的操作__快速入门_表格存储-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云