閱讀321 返回首頁    go 財經資訊


配置數據導入任務__基礎示例—完整數據開發_場景教程_大數據開發套件-阿裏雲

原始數據在RDS數據庫上,需要用ODPS加工得先把數據導入到ODPS,前麵“配置RDS數據源”章節中已經把數據源加好,ODPS源表也已經在前麵“創建ODPS表 ”章節中創建好,接下來我們可以開始創建數據導入任務。具體操作如下:

步驟1:在上一章節創建的工作流(tmall_ub_features_demo)設計器的節點組件中向畫布拖拽一個數據同步節點組件,進行創建。

QK_6_1

■ 名稱:s_user_brand_demo。

■ 描述:RDS上同步數據到表s_user_brand_demo。

步驟2:雙擊該節點或右鍵查看節點內容進入任務配置界麵。

步驟2.1:選擇數據來源和目標。

QK_6_3

源頭默認為單表,選擇前麵添加的數據源,和對應的原始數據表;目標選擇本項目對應的ODPS project,所以數據源即為odps_frist,目標表為s_user_brand_demo表。

步驟2.2:選擇要抽取的列,並映射到目標表字段。

QK_6_4

選好源和目標表之後,列會先自動按照字段名對應匹配,匹配不到的目標字段留空,默認顯示所有源表字段,數據同步任務執行的時候就按該字段配置順序一一對應讀寫。

本示例中,目標表字段為3個,字段名與源表字段名一致因此自動按順序匹配到。源表的字段visit_datetime不需要同步,所以可以鼠標放到該字段上在顯示的刪除按鈕上點擊刪除

步驟2.3:數據抽取和加載控製。

QK_6_5

同步任務每次執行讀原始數據一天的數據寫入ODPS目標表一個分區,原始數據時間visit_datetime格式為年月日(yyyymmdd),所以可以用調度業務日期時間參數(${bdp.ststem.bizdate})代替時間值,使得任務每天調度時自動替換成當天業務日期時間。

數據過濾配置:thedate=${bdp.system.bizdate},增量同步。

分區信息配置:${bdp.system.bizdate}。

另外加載控製中的“清理規則”選擇“寫入前清理已有數據”,主要是考慮到異常情況如原始數據有異常,修複後需要重新導入ODPS,若導入前不清理已有數據,重新導入後目標表數據還是髒數據;選擇寫入前清理已有數據則清理對應分區的數據後再寫入數據(若目標表為非分區表則清空整個表數據再寫入)。

步驟2.4:流量與出錯控製。

QK_6_6

步驟3:配置節點參數。

QK_6_7

由於${bdp.system.bizdate}為係統參數,因此參數配置中無需賦值。

步驟4:點擊保存QK_6_8

>>>下一步:配置sql任務產出特征表>>>

最後更新:2016-11-23 16:04:08

  上一篇:go 創建工作流__基礎示例—完整數據開發_場景教程_大數據開發套件-阿裏雲
  下一篇:go 配置sql任務產出特征表__基礎示例—完整數據開發_場景教程_大數據開發套件-阿裏雲