169
阿里云
8.7 使用kettle导入本地数据__第八章 在生产中使用分析型数据库_使用手册_分析型数据库-阿里云
Pentaho Data Integration(又称Kettle)是一款非常受欢迎的开源ETL工具软件。分析型数据库支持用户利用Kettle将外部数据源写入实时写入表中。
Kettle的数据输出程序并未为分析型数据库进行过优化,因此写入分析型数据库的速度并不是很快(通常不超过700 rec/s),不是特别适合大批量数据的写入,但是对于本地文件上传、小数据表等的写入等场景是非常合适的。
我们以导入本地excel文件为例,首先在分析型数据库中建立对应结构的实时写入表。然后用户可在 https://community.pentaho.com/projects/data-integration/ 上下载kettle软件,安装运行后,新建一个转换。
在该转换的DB连接中新建一项,连接类型选择MySQL,连接方式使用Native(JDBC)。主机名填写分析型数据库的连接域名,端口号填写链接端口号,用户名和密码填写access key信息,并去掉”Use Result Streaming Cursor”选项,如下图所示:
然后在kettle中,核心对象的“输入”中找到Excel输入拖拽到工作区,浏览并增加需要导入的Excel文件,根据实际需要设置工作表、内容、字段等选项卡,之后点击预览记录来查看输入的数据是否符合要求。
之后在核心对象的输出中找到表输出拖入工作区。新建一个从Excel输入指向表输出的连线。然后在表输出的属性中,手工填写目标模式(数据库名)、目标表名,暂不支持浏览功能。提交记录数量建议设置在30左右。选择“指定数据库字段”和“使用批量插入”,在数据库字段选项卡中点击获取字段和输入字段映射,映射excel文件的列与ads表的列名的映射关系,全部配置结束后如下:
之后便可单击白色三角箭头运行这个转换,观察运行日志和运行状态即可。
Kettle拥有非常强大的过滤、数据格式转换、清洗、抽取等功能,更多的使用详情请参考Kettle官方文档。
最后更新:2016-12-07 10:04:19
上一篇:
8.6 使用本地客户端连接分析型数据库__第八章 在生产中使用分析型数据库_使用手册_分析型数据库-阿里云
下一篇:
附录一 元数据库数据字典__附录_使用手册_分析型数据库-阿里云
数据集管理__监控结果管理_用户指南_业务实时监控服务 ARMS-阿里云
视频文件上传及工作流执行__使用手册_视频点播-阿里云
使用集群__命令行工具_批量计算-阿里云
集群列表页__集群_用户指南_E-MapReduce-阿里云
2016年11月21日数据风控控制台升级__产品升级更新_数据风控-阿里云
计费说明__购买指南_推荐引擎-阿里云
CustomDomain__数据类型_API_API 网关-阿里云
ActionTrail现在支持哪些产品?__常见问题_常见问题_操作审计-阿里云
申请外网连接串__实例管理_API 参考_云数据库 RDS 版-阿里云
步骤一:控制台配置__快速上线_Web 应用防火墙-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云