阅读294 返回首页    go 阿里云 go 技术社区[云栖]


源/目标__使用手册(new)_机器学习-阿里云


目录


读ODPS表

读取ODPS的表数据组件,默认读取本工程下的数据;若读取其他工程的表数据且拥有该project的操作权限),只需在表名前添加工程名,格式:工程名.表名,如:tianchi_project.weibo_data当输入表后,会自动读取表的结构数据,可点击字段信息查看本组件不支持视图ODPS表字段修改后,如增加或删除某个字段,在算法平台中是无法感知的,需要用户重新设置一下ODPS源,reload一下这个表信息。

若输入表是分区表,后台会自动勾选分区框,用户可选择或输入分区参数,目前仅支持输入单个分区。不勾选分区框或勾选后不输入分区参数均默认为输入全表若输入表是非分区表,分区框不可勾选

读odps表的输入框

此处输入图片的描述

左上角为创建odps表的功能;

写ODPS表

写入ODPS表的数据组件,同样支持写入其他工程的表数据。写入表数据不支持分区操作

Mysql数据库同步

功能说明

  • 同步Mysql 数据到ODPS 项目

参数说明

参数名称 参数描述 取值范围 是否必选,默认值/行为
source cdp 同步数据源标识,常量为 cdp_mysql cdp_mysql cdp_mysql
project_name 必填,ODPS项目的Project Name - -
access_id 必填,ODPS项目的access_id - -
access_key 必填,ODPS项目的access_key - -
end_point 必填,ODPS项目的end_point - https://service.odps.aliyun.com/api
instanceName 必填,RDS的实例名称 -
database 必填,RDS数据库 -
username 必填,RDS该数据库的用户名 - -
password 必填,RDS该数据库密码 - -
table 必填,欲同步的数据表 - -
column 选填,默认同步该数据库所有字段 -
outputTable 必填,RDS该数据库密码 - -
mbps 选填,数据同步带宽 单位MB/s 1
errorLimit 选填,数据错误数,默认0容忍数据错误 - 0
lifecycle 输出结果表的生命周期 - 7

ps:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者datax

如何获取组件参数

1. 登录aliyun.com,使用主账号登录,切换到OSS控制台,如下图所示,获取OSS的accessKey 和 获取实例名称

image

2. 添加白名单。 由于rds对访问的ip有限制,需要点击 数据安全性 ,添加白名单,其中 0.0.0.0/0表示运行任意ip访问.

imageimage

3. 点击实例链接,可以查看实例的详细信息,比如账号信息(如果没有账号,可以新建一个账号),数据库信息

image

image

4. 在 数据库链接 一栏中点击 登录数据库

image

image

5. 登录后,可以查看数据库 database, 数据库下对应的table和schema

image

OSS数据同步

功能说明

  • 同步OSS的文本到ODPS 数据源

ps: cdp服务不提供命令行执行语句

参数说明

参数名称 参数描述 取值范围 是否必选,默认值/行为
source cdp 同步数据源标识,常量为 cdp_mysql cdp_mysql cdp_mysql
project_name 必填,ODPS项目的Project Name - -
access_id 必填,ODPS项目的access_id - -
access_key 必填,ODPS项目的access_key - -
end_point 必填,ODPS项目的end_point - https://service.odps.aliyun.com/api
OSSendpoint 必填,OSS存储服务所在的endpoint oss-cn-xxxx.aliyuncs.com oss-cn-shanghai.aliyuncs.com
OSSaccessId 必填,OSS服务的accessId - -
OSSaccessKey 必填,OSS服务的accessKey - -
bucket 必填,OSS服务的bucket - -
object 必填,欲同步的OSS object - -
OSScolumn 必填,同步的字段映射.格式是index:name,表示OSS第index列同步到ODPS字段名为name的字段中,字段类型默认string,比如0:label,1:s_width,2:s_length,3:v_width,4:v_length - -
fieldDilimeter 必填,OSS object的文本分隔符(列分隔符) 逗号 ,
encoding 选填,OSS文本的编码 utf-8 utf-8
compress 选填,OSS文本压缩格式,默认无 gzip,zip,bzip2
mbps 选填,数据同步带宽 单位MB/s 1
errorLimit 选填,数据错误数,默认0容忍数据错误 - 0
lifecycle 输出结果表的生命周期 - 7

ps:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者datax

如何获取组件参数

1 使用主账号登录 aliyun.com,切换到OSS 控制台,点击界面右上角的accessKey,获取accessId和accessKey
2 在OSS控制台,可以看到用户拥有的 bucket,比如下图bucket名为nianjun-test(没有可以创建), 点击bucket,进入bucket的详情,左边栏有Bucket属性,Object管理等. 从中可以获取bucket,object等信息.

3 点击Bucket概览,可以获取该OSS bucket所在的endpoint

最后更新:2016-11-23 16:04:15

  上一篇:go 机器学习简介__机器学习-阿里云
  下一篇:go 数据预处理__使用手册(new)_机器学习-阿里云