源/目标__使用手册(new)_机器学习-阿里云
目录
读ODPS表
读取ODPS的表数据组件,默认读取本工程下的数据;若读取其他工程的表数据且拥有该project的操作权限),只需在表名前添加工程名,格式:工程名.表名,如:tianchi_project.weibo_data当输入表后,会自动读取表的结构数据,可点击字段信息查看本组件不支持视图ODPS表字段修改后,如增加或删除某个字段,在算法平台中是无法感知的,需要用户重新设置一下ODPS源,reload一下这个表信息。
若输入表是分区表,后台会自动勾选分区框,用户可选择或输入分区参数,目前仅支持输入单个分区。不勾选分区框或勾选后不输入分区参数均默认为输入全表若输入表是非分区表,分区框不可勾选
读odps表的输入框
左上角为创建odps表的功能;
写ODPS表
写入ODPS表的数据组件,同样支持写入其他工程的表数据。写入表数据不支持分区操作
Mysql数据库同步
功能说明
- 同步Mysql 数据到ODPS 项目
参数说明
参数名称 | 参数描述 | 取值范围 | 是否必选,默认值/行为 |
---|---|---|---|
source | cdp 同步数据源标识,常量为 cdp_mysql | cdp_mysql | cdp_mysql |
project_name | 必填,ODPS项目的Project Name | - | - |
access_id | 必填,ODPS项目的access_id | - | - |
access_key | 必填,ODPS项目的access_key | - | - |
end_point | 必填,ODPS项目的end_point | - | https://service.odps.aliyun.com/api |
instanceName | 必填,RDS的实例名称 | - | |
database | 必填,RDS数据库 | - | |
username | 必填,RDS该数据库的用户名 | - | - |
password | 必填,RDS该数据库密码 | - | - |
table | 必填,欲同步的数据表 | - | - |
column | 选填,默认同步该数据库所有字段 | - | |
outputTable | 必填,RDS该数据库密码 | - | - |
mbps | 选填,数据同步带宽 | 单位MB/s | 1 |
errorLimit | 选填,数据错误数,默认0容忍数据错误 | - | 0 |
lifecycle | 输出结果表的生命周期 | - | 7 |
ps:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者datax
如何获取组件参数
1. 登录aliyun.com,使用主账号登录,切换到OSS控制台,如下图所示,获取OSS的accessKey 和 获取实例名称
2. 添加白名单。 由于rds对访问的ip有限制,需要点击 数据安全性 ,添加白名单,其中 0.0.0.0/0表示运行任意ip访问.
3. 点击实例链接,可以查看实例的详细信息,比如账号信息(如果没有账号,可以新建一个账号),数据库信息
4. 在 数据库链接 一栏中点击 登录数据库
5. 登录后,可以查看数据库 database, 数据库下对应的table和schema
OSS数据同步
功能说明
- 同步OSS的文本到ODPS 数据源
ps: cdp服务不提供命令行执行语句
参数说明
参数名称 | 参数描述 | 取值范围 | 是否必选,默认值/行为 |
---|---|---|---|
source | cdp 同步数据源标识,常量为 cdp_mysql | cdp_mysql | cdp_mysql |
project_name | 必填,ODPS项目的Project Name | - | - |
access_id | 必填,ODPS项目的access_id | - | - |
access_key | 必填,ODPS项目的access_key | - | - |
end_point | 必填,ODPS项目的end_point | - | https://service.odps.aliyun.com/api |
OSSendpoint | 必填,OSS存储服务所在的endpoint | oss-cn-xxxx.aliyuncs.com | oss-cn-shanghai.aliyuncs.com |
OSSaccessId | 必填,OSS服务的accessId | - | - |
OSSaccessKey | 必填,OSS服务的accessKey | - | - |
bucket | 必填,OSS服务的bucket | - | - |
object | 必填,欲同步的OSS object | - | - |
OSScolumn | 必填,同步的字段映射.格式是index:name,表示OSS第index列同步到ODPS字段名为name的字段中,字段类型默认string,比如0:label,1:s_width,2:s_length,3:v_width,4:v_length | - | - |
fieldDilimeter | 必填,OSS object的文本分隔符(列分隔符) | 逗号 | , |
encoding | 选填,OSS文本的编码 | utf-8 | utf-8 |
compress | 选填,OSS文本压缩格式,默认无 | gzip,zip,bzip2 | |
mbps | 选填,数据同步带宽 | 单位MB/s | 1 |
errorLimit | 选填,数据错误数,默认0容忍数据错误 | - | 0 |
lifecycle | 输出结果表的生命周期 | - | 7 |
ps:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者datax
如何获取组件参数
1 使用主账号登录 aliyun.com,切换到OSS 控制台,点击界面右上角的accessKey,获取accessId和accessKey
2 在OSS控制台,可以看到用户拥有的 bucket,比如下图bucket名为nianjun-test(没有可以创建), 点击bucket,进入bucket的详情,左边栏有Bucket属性,Object管理等. 从中可以获取bucket,object等信息.
3 点击Bucket概览,可以获取该OSS bucket所在的endpoint
最后更新:2016-11-23 16:04:15
上一篇:
机器学习简介__机器学习-阿里云
下一篇:
数据预处理__使用手册(new)_机器学习-阿里云
阿里云异构计算产品家族亮相,覆盖AI全场景和高性能计算需求
ECS API 发生子账号访问主账号资源时的鉴权规则__借助 RAM 实现子账号对主账号的 ECS 资源访问_API 参考_云服务器 ECS-阿里云
2016年11月21日数据风控控制台升级__产品升级更新_数据风控-阿里云
管理数据卷__数据卷指南_用户指南_容器服务-阿里云
多行数据操作__Java-SDK_SDK 参考_表格存储-阿里云
响应时间__常用指标_使用手册_性能测试-阿里云
图片处理访问规则__图片处理指南_对象存储 OSS-阿里云
下线API__API管理相关接口_API_API 网关-阿里云
示例项目使用说明__开发准备_开发人员指南_E-MapReduce-阿里云
新建测试___Lite用户使用手册_性能测试-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云