阅读321 返回首页    go 阿里云


配置数据导入任务__基础示例—完整数据开发_场景教程_大数据开发套件-阿里云

原始数据在RDS数据库上,需要用ODPS加工得先把数据导入到ODPS,前面“配置RDS数据源”章节中已经把数据源加好,ODPS源表也已经在前面“创建ODPS表 ”章节中创建好,接下来我们可以开始创建数据导入任务。具体操作如下:

步骤1:在上一章节创建的工作流(tmall_ub_features_demo)设计器的节点组件中向画布拖拽一个数据同步节点组件,进行创建。

QK_6_1

■ 名称:s_user_brand_demo。

■ 描述:RDS上同步数据到表s_user_brand_demo。

步骤2:双击该节点或右键查看节点内容进入任务配置界面。

步骤2.1:选择数据来源和目标。

QK_6_3

源头默认为单表,选择前面添加的数据源,和对应的原始数据表;目标选择本项目对应的ODPS project,所以数据源即为odps_frist,目标表为s_user_brand_demo表。

步骤2.2:选择要抽取的列,并映射到目标表字段。

QK_6_4

选好源和目标表之后,列会先自动按照字段名对应匹配,匹配不到的目标字段留空,默认显示所有源表字段,数据同步任务执行的时候就按该字段配置顺序一一对应读写。

本示例中,目标表字段为3个,字段名与源表字段名一致因此自动按顺序匹配到。源表的字段visit_datetime不需要同步,所以可以鼠标放到该字段上在显示的删除按钮上点击删除

步骤2.3:数据抽取和加载控制。

QK_6_5

同步任务每次执行读原始数据一天的数据写入ODPS目标表一个分区,原始数据时间visit_datetime格式为年月日(yyyymmdd),所以可以用调度业务日期时间参数(${bdp.ststem.bizdate})代替时间值,使得任务每天调度时自动替换成当天业务日期时间。

数据过滤配置:thedate=${bdp.system.bizdate},增量同步。

分区信息配置:${bdp.system.bizdate}。

另外加载控制中的“清理规则”选择“写入前清理已有数据”,主要是考虑到异常情况如原始数据有异常,修复后需要重新导入ODPS,若导入前不清理已有数据,重新导入后目标表数据还是脏数据;选择写入前清理已有数据则清理对应分区的数据后再写入数据(若目标表为非分区表则清空整个表数据再写入)。

步骤2.4:流量与出错控制。

QK_6_6

步骤3:配置节点参数。

QK_6_7

由于${bdp.system.bizdate}为系统参数,因此参数配置中无需赋值。

步骤4:点击保存QK_6_8

>>>下一步:配置sql任务产出特征表>>>

最后更新:2016-11-23 16:04:08

  上一篇:go 创建工作流__基础示例—完整数据开发_场景教程_大数据开发套件-阿里云
  下一篇:go 配置sql任务产出特征表__基础示例—完整数据开发_场景教程_大数据开发套件-阿里云