8.2 数据导入任务生产指南__第八章 在生产中使用分析型数据库_使用手册_分析型数据库-阿里云
在使用分析型数据库时,稳定的数据导入是非常重要的生产要素。一般新用户经常在进行首次的数据导入时因为操作不当无法成功,或成功后无法稳定运行。这里我们来看一下建立一个生产化的数据导入任务的注意事项。
数据的准备方面
想要稳定的导入数据,首先要在数据的源头稳定的产出数据。一份对于分析型数据库来说稳定的数据至少要满足:
数据所在的项目名(对应源头为ODPS)/文件访问路径(对应源头为OSS,暂不支持)/服务器连接串(对应源头为RDS,暂不支持)和表名与LOAD DATA命令的中的源头一致并保持稳定。
数据表的字段名,在源头上与在分析型数据库上的配置一致,源头表可以比分析型数据库有更多的字段,但是不能比分析型数据库表缺少字段。
源头表进行导入的分区的数据不能为空,进行导入的数据主键不能有NULL值,HASH分区键不能存在大量NULL值或同样的HASH分区键的数据条数过多,例如超过了每个分区的平均数据量的三倍。否则不仅会对查询性能造成影响,在极端情况下也会导致数据导入时间过长或者失败。
调用导入命令
在数据产出后,可以通过MySQL连接的方式或者HTTP Rest-API的方式调用数据导入命令,这时应该注意:
调用命令时,命令所引用的源头表/分区的数据已经完整的产出完毕,并且若源头是ODPS/OSS,应该不在有任何在源头的写入操作。所以通常需要一个良好的离线任务调度系统(例如阿里云DPC中的数据开发平台)来进行相关的任务运行和调度。
调用命令时,要确保命令所引用的源头表/分区已经对
ALIYUN$garuda_build@aliyun.com
授予足够的权限并未开启保护模式等阻止数据流出的安全策略。调用命令时分析型数据库中该表没有正在运行的导入任务,否则会返回失败。
查询数据导入状态和解决导入中的问题
在生产系统中查询数据导入状态,通常更多的是通过HTTP API进行的查询的,这里如果有一个较好的离线任务调度系统,那么实现难度并不大。
在数据导入的过程中,经常会因为出现各种错误而导致导入中断,具体的错误处理可以见附录一:错误码中。
最后更新:2016-11-24 11:23:46
上一篇:
8.1 业务系统连接并进行查询__第八章 在生产中使用分析型数据库_使用手册_分析型数据库-阿里云
下一篇:
8.3 在BI工具中连接和使用分析型数据库__第八章 在生产中使用分析型数据库_使用手册_分析型数据库-阿里云
如何解读结果__Lite实践指南_性能测试-阿里云
系统调度参数__数据开发手册_用户操作指南_大数据开发套件-阿里云
云监控插件安装指南__云监控操作指南_产品使用问题_云监控-阿里云
接入协议__设备基于MQTT接入_设备端接入手册_阿里云物联网套件-阿里云
对象存储OSS控制台—总体概览页__视频专区_对象存储 OSS-阿里云
请求安全令牌-Java示例代码__上传视频文件_开发人员指南_视频点播-阿里云
终止应用实例__应用API列表_API参考_容器服务-阿里云
绑定云虚拟主机域名__管理控制台_使用指南_云虚机主机-阿里云
总体说明__服务器端API_阿里云物联网套件-阿里云
刷新作业状态__作业管理_SDK参考手册_数据集成-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云