閱讀294 返回首頁    go 奇藝


源/目標__使用手冊(new)_機器學習-阿裏雲


目錄


讀ODPS表

讀取ODPS的表數據組件,默認讀取本工程下的數據;若讀取其他工程的表數據且擁有該project的操作權限),隻需在表名前添加工程名,格式:工程名.表名,如:tianchi_project.weibo_data當輸入表後,會自動讀取表的結構數據,可點擊字段信息查看本組件不支持視圖ODPS表字段修改後,如增加或刪除某個字段,在算法平台中是無法感知的,需要用戶重新設置一下ODPS源,reload一下這個表信息。

若輸入表是分區表,後台會自動勾選分區框,用戶可選擇或輸入分區參數,目前僅支持輸入單個分區。不勾選分區框或勾選後不輸入分區參數均默認為輸入全表若輸入表是非分區表,分區框不可勾選

讀odps表的輸入框

此處輸入圖片的描述

左上角為創建odps表的功能;

寫ODPS表

寫入ODPS表的數據組件,同樣支持寫入其他工程的表數據。寫入表數據不支持分區操作

Mysql數據庫同步

功能說明

  • 同步Mysql 數據到ODPS 項目

參數說明

參數名稱 參數描述 取值範圍 是否必選,默認值/行為
source cdp 同步數據源標識,常量為 cdp_mysql cdp_mysql cdp_mysql
project_name 必填,ODPS項目的Project Name - -
access_id 必填,ODPS項目的access_id - -
access_key 必填,ODPS項目的access_key - -
end_point 必填,ODPS項目的end_point - https://service.odps.aliyun.com/api
instanceName 必填,RDS的實例名稱 -
database 必填,RDS數據庫 -
username 必填,RDS該數據庫的用戶名 - -
password 必填,RDS該數據庫密碼 - -
table 必填,欲同步的數據表 - -
column 選填,默認同步該數據庫所有字段 -
outputTable 必填,RDS該數據庫密碼 - -
mbps 選填,數據同步帶寬 單位MB/s 1
errorLimit 選填,數據錯誤數,默認0容忍數據錯誤 - 0
lifecycle 輸出結果表的生命周期 - 7

ps:由於CDP服務是對外服務,不支持集團內部數據同步,集團內部數據同步請走數據同步中心或者datax

如何獲取組件參數

1. 登錄aliyun.com,使用主賬號登錄,切換到OSS控製台,如下圖所示,獲取OSS的accessKey 和 獲取實例名稱

image

2. 添加白名單。 由於rds對訪問的ip有限製,需要點擊 數據安全性 ,添加白名單,其中 0.0.0.0/0表示運行任意ip訪問.

imageimage

3. 點擊實例鏈接,可以查看實例的詳細信息,比如賬號信息(如果沒有賬號,可以新建一個賬號),數據庫信息

image

image

4. 在 數據庫鏈接 一欄中點擊 登錄數據庫

image

image

5. 登錄後,可以查看數據庫 database, 數據庫下對應的table和schema

image

OSS數據同步

功能說明

  • 同步OSS的文本到ODPS 數據源

ps: cdp服務不提供命令行執行語句

參數說明

參數名稱 參數描述 取值範圍 是否必選,默認值/行為
source cdp 同步數據源標識,常量為 cdp_mysql cdp_mysql cdp_mysql
project_name 必填,ODPS項目的Project Name - -
access_id 必填,ODPS項目的access_id - -
access_key 必填,ODPS項目的access_key - -
end_point 必填,ODPS項目的end_point - https://service.odps.aliyun.com/api
OSSendpoint 必填,OSS存儲服務所在的endpoint oss-cn-xxxx.aliyuncs.com oss-cn-shanghai.aliyuncs.com
OSSaccessId 必填,OSS服務的accessId - -
OSSaccessKey 必填,OSS服務的accessKey - -
bucket 必填,OSS服務的bucket - -
object 必填,欲同步的OSS object - -
OSScolumn 必填,同步的字段映射.格式是index:name,表示OSS第index列同步到ODPS字段名為name的字段中,字段類型默認string,比如0:label,1:s_width,2:s_length,3:v_width,4:v_length - -
fieldDilimeter 必填,OSS object的文本分隔符(列分隔符) 逗號 ,
encoding 選填,OSS文本的編碼 utf-8 utf-8
compress 選填,OSS文本壓縮格式,默認無 gzip,zip,bzip2
mbps 選填,數據同步帶寬 單位MB/s 1
errorLimit 選填,數據錯誤數,默認0容忍數據錯誤 - 0
lifecycle 輸出結果表的生命周期 - 7

ps:由於CDP服務是對外服務,不支持集團內部數據同步,集團內部數據同步請走數據同步中心或者datax

如何獲取組件參數

1 使用主賬號登錄 aliyun.com,切換到OSS 控製台,點擊界麵右上角的accessKey,獲取accessId和accessKey
2 在OSS控製台,可以看到用戶擁有的 bucket,比如下圖bucket名為nianjun-test(沒有可以創建), 點擊bucket,進入bucket的詳情,左邊欄有Bucket屬性,Object管理等. 從中可以獲取bucket,object等信息.

3 點擊Bucket概覽,可以獲取該OSS bucket所在的endpoint

最後更新:2016-11-23 16:04:15

  上一篇:go 機器學習簡介__機器學習-阿裏雲
  下一篇:go 數據預處理__使用手冊(new)_機器學習-阿裏雲