294
奇藝
源/目標__使用手冊(new)_機器學習-阿裏雲
目錄
讀ODPS表
讀取ODPS的表數據組件,默認讀取本工程下的數據;若讀取其他工程的表數據且擁有該project的操作權限),隻需在表名前添加工程名,格式:工程名.表名,如:tianchi_project.weibo_data當輸入表後,會自動讀取表的結構數據,可點擊字段信息查看本組件不支持視圖ODPS表字段修改後,如增加或刪除某個字段,在算法平台中是無法感知的,需要用戶重新設置一下ODPS源,reload一下這個表信息。
若輸入表是分區表,後台會自動勾選分區框,用戶可選擇或輸入分區參數,目前僅支持輸入單個分區。不勾選分區框或勾選後不輸入分區參數均默認為輸入全表若輸入表是非分區表,分區框不可勾選
讀odps表的輸入框
左上角為創建odps表的功能;
寫ODPS表
寫入ODPS表的數據組件,同樣支持寫入其他工程的表數據。寫入表數據不支持分區操作
Mysql數據庫同步
功能說明
- 同步Mysql 數據到ODPS 項目
參數說明
參數名稱 | 參數描述 | 取值範圍 | 是否必選,默認值/行為 |
---|---|---|---|
source | cdp 同步數據源標識,常量為 cdp_mysql | cdp_mysql | cdp_mysql |
project_name | 必填,ODPS項目的Project Name | - | - |
access_id | 必填,ODPS項目的access_id | - | - |
access_key | 必填,ODPS項目的access_key | - | - |
end_point | 必填,ODPS項目的end_point | - | https://service.odps.aliyun.com/api |
instanceName | 必填,RDS的實例名稱 | - | |
database | 必填,RDS數據庫 | - | |
username | 必填,RDS該數據庫的用戶名 | - | - |
password | 必填,RDS該數據庫密碼 | - | - |
table | 必填,欲同步的數據表 | - | - |
column | 選填,默認同步該數據庫所有字段 | - | |
outputTable | 必填,RDS該數據庫密碼 | - | - |
mbps | 選填,數據同步帶寬 | 單位MB/s | 1 |
errorLimit | 選填,數據錯誤數,默認0容忍數據錯誤 | - | 0 |
lifecycle | 輸出結果表的生命周期 | - | 7 |
ps:由於CDP服務是對外服務,不支持集團內部數據同步,集團內部數據同步請走數據同步中心或者datax
如何獲取組件參數
1. 登錄aliyun.com,使用主賬號登錄,切換到OSS控製台,如下圖所示,獲取OSS的accessKey 和 獲取實例名稱
2. 添加白名單。 由於rds對訪問的ip有限製,需要點擊 數據安全性 ,添加白名單,其中 0.0.0.0/0表示運行任意ip訪問.
3. 點擊實例鏈接,可以查看實例的詳細信息,比如賬號信息(如果沒有賬號,可以新建一個賬號),數據庫信息
4. 在 數據庫鏈接 一欄中點擊 登錄數據庫
5. 登錄後,可以查看數據庫 database, 數據庫下對應的table和schema
OSS數據同步
功能說明
- 同步OSS的文本到ODPS 數據源
ps: cdp服務不提供命令行執行語句
參數說明
參數名稱 | 參數描述 | 取值範圍 | 是否必選,默認值/行為 |
---|---|---|---|
source | cdp 同步數據源標識,常量為 cdp_mysql | cdp_mysql | cdp_mysql |
project_name | 必填,ODPS項目的Project Name | - | - |
access_id | 必填,ODPS項目的access_id | - | - |
access_key | 必填,ODPS項目的access_key | - | - |
end_point | 必填,ODPS項目的end_point | - | https://service.odps.aliyun.com/api |
OSSendpoint | 必填,OSS存儲服務所在的endpoint | oss-cn-xxxx.aliyuncs.com | oss-cn-shanghai.aliyuncs.com |
OSSaccessId | 必填,OSS服務的accessId | - | - |
OSSaccessKey | 必填,OSS服務的accessKey | - | - |
bucket | 必填,OSS服務的bucket | - | - |
object | 必填,欲同步的OSS object | - | - |
OSScolumn | 必填,同步的字段映射.格式是index:name,表示OSS第index列同步到ODPS字段名為name的字段中,字段類型默認string,比如0:label,1:s_width,2:s_length,3:v_width,4:v_length | - | - |
fieldDilimeter | 必填,OSS object的文本分隔符(列分隔符) | 逗號 | , |
encoding | 選填,OSS文本的編碼 | utf-8 | utf-8 |
compress | 選填,OSS文本壓縮格式,默認無 | gzip,zip,bzip2 | |
mbps | 選填,數據同步帶寬 | 單位MB/s | 1 |
errorLimit | 選填,數據錯誤數,默認0容忍數據錯誤 | - | 0 |
lifecycle | 輸出結果表的生命周期 | - | 7 |
ps:由於CDP服務是對外服務,不支持集團內部數據同步,集團內部數據同步請走數據同步中心或者datax
如何獲取組件參數
1 使用主賬號登錄 aliyun.com,切換到OSS 控製台,點擊界麵右上角的accessKey,獲取accessId和accessKey
2 在OSS控製台,可以看到用戶擁有的 bucket,比如下圖bucket名為nianjun-test(沒有可以創建), 點擊bucket,進入bucket的詳情,左邊欄有Bucket屬性,Object管理等. 從中可以獲取bucket,object等信息.
3 點擊Bucket概覽,可以獲取該OSS bucket所在的endpoint
最後更新:2016-11-23 16:04:15
上一篇:
機器學習簡介__機器學習-阿裏雲
下一篇:
數據預處理__使用手冊(new)_機器學習-阿裏雲
阿裏雲異構計算產品家族亮相,覆蓋AI全場景和高性能計算需求
ECS API 發生子賬號訪問主賬號資源時的鑒權規則__借助 RAM 實現子賬號對主賬號的 ECS 資源訪問_API 參考_雲服務器 ECS-阿裏雲
2016年11月21日數據風控控製台升級__產品升級更新_數據風控-阿裏雲
管理數據卷__數據卷指南_用戶指南_容器服務-阿裏雲
多行數據操作__Java-SDK_SDK 參考_表格存儲-阿裏雲
響應時間__常用指標_使用手冊_性能測試-阿裏雲
圖片處理訪問規則__圖片處理指南_對象存儲 OSS-阿裏雲
下線API__API管理相關接口_API_API 網關-阿裏雲
示例項目使用說明__開發準備_開發人員指南_E-MapReduce-阿裏雲
新建測試___Lite用戶使用手冊_性能測試-阿裏雲
相關內容
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲