5.3 海量数据导出__第五章 Data Pipeline_使用手册_分析型数据库-阿里云

分析型数据库的查询模式适合在海量数据中进行分析计算后输出适量数据，若需要输出的数据量达到一定规模，分析型数据库提供数据导出（DUMP）的方式。注意目前DUMP方式中不能使用针对非分区列的聚合函数。

通过类DML语句导出到MaxCompute

前提须知

分析型数据库通过一个固定云账号进行数据导出到MaxCompute（与数据从MaxCompute导入到AnalyticDB情况类似）。各个专有云的导出账号名参照专有云的相关配置文档，一般为test1000000009@aliyun.com（与导入账号一致），公共云导出账号为garuda_data@aliyun.com。
需要给导入账号授予目标MaxCompute项目的createInstance权限，以及目标表的describe、select、alter、update、drop权限。

授权命令：


--注意正确输入需要授权的表命名、project和正确的云账号
USE prj_name；--表所属ODPS project
ADD USER ALIYUN$xxxx@aliyun.com;
GRANT createInstance ON project prj_name TO USER ALIYUN$xxxx@aliyun.com;
GRANT Describe,Select,alter,update,drop ON TABLE table_name TO USER ALIYUN$xxxx@aliyun.com;


导出命令
类似于普通的SQL查询语句，用户也可通过类似于DML语句进行数据导出。
语法格式：
    DUMP DATA 
    [OVERWRITE] INTO 'odps://project_name/table_name'
    SELECT C1, C2 FROM DB1.TABLE1 WHERE C1 = 'xxxx' LIMIT N

通过类DML语句导出到OSS（当前为公测功能，非商业化使用）
导出到OSS时，需要持有对该oss bucket有写权限的AK（为安全起见，必须使用子账号的AK）。
语法格式：
    /*+ dump-oss-accesskey-id=oss的ACCESS_KEY_ID,
 dump-oss-accesskey-secret=oss的ACCESS_KEY_SECRET*/ DUMP DATA 
    [OVERWRITE] INTO 'oss://endpoint_domain/bulket_name/filename'
    SELECT C1, C2 FROM DB1.TABLE1 WHERE C1 = 'xxxx' LIMIT N

说明：
endpoint_domain是与ads同一个region的oss的内网endpoint，跨region访问时需要填写oss的公网endpoint（部分region之间可能无法跨region访问oss）。
部分情况下，目前可能会dump oss失败（dump下的sql中有分区倾斜时）
关于返回数据行数
导出方式对海量数据的计算输出具有良好的性能（百万行数据导出在数百毫秒数据级），但是，对于数据精确度有一定牺牲，即实际返回的数据行数，可能是不完全精确。以限制导出行数为1000为例（LIMIT 1000）:
实际数据行数可能稍大于1000，例如此时有120个数据分片，则等同于每个分区明确指定”LIMIT 9”，最多肯能返回1080
实际数据行数可能稍小于1000，如果符合条件的行数的总数小于1000
实际数据行数可能稍小于1000，如果数据分片很均匀，例如此时有120个数据分片，如果某些分片返回数据行小于9的话，则等同于每个分区明确指定”LIMIT 9”
最后更新：2016-11-29 18:01:46
  上一篇： 5.2 数据导入状态查询__第五章 Data Pipeline_使用手册_分析型数据库-阿里云
  下一篇： 6.1 用户账号类型与用户管理__第六章 用户与权限_使用手册_分析型数据库-阿里云
相关内容
 桌面环境设置__操作指南_高性能计算-阿里云
 计费策略__购买指导_分析型数据库-阿里云
 步骤 4：购买域名__搭建 WordPress 网站_建站教程_云服务器 ECS-阿里云
 添加记录__解析记录操作_产品使用手册_云解析-阿里云
 步骤1:选配证书__快速入门_证书服务-阿里云
 术语表__简介_RAM API文档_访问控制-阿里云
 容器商品接入__商品接入_服务商_云市场-阿里云
 CDN设置多个源站IP的回源策略__运维技术分享_技术运维问题_CDN-阿里云
 商业化服务等级协议__服务条款与价格模型_分布式关系型数据库 DRDS-阿里云
 论坛__相关资源_用户指南_专有网络 VPC-阿里云
热门内容
 常见错误说明__附录_大数据计算服务-阿里云
 发送短信接口__API使用手册_短信服务-阿里云
 接口文档__Android_安全组件教程_移动安全-阿里云
 运营商错误码（联通）__常见问题_短信服务-阿里云
 设置短信模板__使用手册_短信服务-阿里云
 OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
 消息通知__操作指南_批量计算-阿里云
 设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
 查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
 使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云
最新内容
 阿里云承认过去两天其客户无法访问部分境外服务器
 阿里云技术与生态合作论坛等你来撩！
 1.1亿红包 阿里云生态联合创新中心打造企业级“双11狂欢节”
 阿里云技术与生态合作论坛强势来袭！
 阿里云携手隆力奇共创新零售时代
 阿里云携手隆力奇共创新零售时代！
 IT培训细分化：云计算和大数据缺口催生“阿里云大学”
 阿里云上的大公司：选择与谋变
 阿里云架构师基础培训课程-北京站
 AlphaGo Zero横空出世；利尔达：阿里云物联网市场创始合作伙伴

5.3 海量数据导出__第五章 Data Pipeline_使用手册_分析型数据库-阿里云

通过类DML语句导出到MaxCompute

通过类DML语句导出到OSS（当前为公测功能，非商业化使用）

关于返回数据行数

上一篇： 5.2 数据导入状态查询__第五章 Data Pipeline_使用手册_分析型数据库-阿里云

下一篇： 6.1 用户账号类型与用户管理__第六章 用户与权限_使用手册_分析型数据库-阿里云

相关内容

热门内容

最新内容

下一篇： 6.1 用户账号类型与用户管理__第六章用户与权限_使用手册_分析型数据库-阿里云