閱讀169 返回首頁    go 阿裏雲


8.7 使用kettle導入本地數據__第八章 在生產中使用分析型數據庫_使用手冊_分析型數據庫-阿裏雲

Pentaho Data Integration(又稱Kettle)是一款非常受歡迎的開源ETL工具軟件。分析型數據庫支持用戶利用Kettle將外部數據源寫入實時寫入表中。

Kettle的數據輸出程序並未為分析型數據庫進行過優化,因此寫入分析型數據庫的速度並不是很快(通常不超過700 rec/s),不是特別適合大批量數據的寫入,但是對於本地文件上傳、小數據表等的寫入等場景是非常合適的。

我們以導入本地excel文件為例,首先在分析型數據庫中建立對應結構的實時寫入表。然後用戶可在 https://community.pentaho.com/projects/data-integration/ 上下載kettle軟件,安裝運行後,新建一個轉換。

在該轉換的DB連接中新建一項,連接類型選擇MySQL,連接方式使用Native(JDBC)。主機名填寫分析型數據庫的連接域名,端口號填寫鏈接端口號,用戶名和密碼填寫access key信息,並去掉”Use Result Streaming Cursor”選項,如下圖所示:

8-8-1

然後在kettle中,核心對象的“輸入”中找到Excel輸入拖拽到工作區,瀏覽並增加需要導入的Excel文件,根據實際需要設置工作表、內容、字段等選項卡,之後點擊預覽記錄來查看輸入的數據是否符合要求。

之後在核心對象的輸出中找到表輸出拖入工作區。新建一個從Excel輸入指向表輸出的連線。然後在表輸出的屬性中,手工填寫目標模式(數據庫名)、目標表名,暫不支持瀏覽功能。提交記錄數量建議設置在30左右。選擇“指定數據庫字段”和“使用批量插入”,在數據庫字段選項卡中點擊獲取字段和輸入字段映射,映射excel文件的列與ads表的列名的映射關係,全部配置結束後如下:

8-8-2

8-8-3

8-8-4

之後便可單擊白色三角箭頭運行這個轉換,觀察運行日誌和運行狀態即可。

Kettle擁有非常強大的過濾、數據格式轉換、清洗、抽取等功能,更多的使用詳情請參考Kettle官方文檔。

最後更新:2016-12-07 10:04:19

  上一篇:go 8.6 使用本地客戶端連接分析型數據庫__第八章 在生產中使用分析型數據庫_使用手冊_分析型數據庫-阿裏雲
  下一篇:go 附錄一 元數據庫數據字典__附錄_使用手冊_分析型數據庫-阿裏雲