177
windows
DataX__數據入雲_數據集成-阿裏雲
DataX 是阿裏巴巴集團內被廣泛使用的離線數據同步工具/平台,實現包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各種異構數據源之間高效的數據同步功能。
二、環境要求
1、Linux
4、Apache Maven 3.x (若不編譯DataX源碼,則不需要)
三、工具部署
方法一、直接下載DataX工具包:DataX
下載後解壓至本地某個目錄,進入bin目錄,即可運行同步作業:
$ cd {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}
同步作業配置模板,請參考DataX各個插件配置模板和參數說明
方法二、下載DataX源碼,自己編譯:DataX源碼
(1)、下載DataX源碼:
$ git clone git@github.com:alibaba/DataX.git
(2)、通過maven打包:
$ cd {DataX_source_code_home}
$ mvn -U clean package assembly:assembly -Dmaven.test.skip=true
打包成功,日誌顯示如下:
[INFO] BUILD SUCCESS
[INFO] -----------------------------------------------------------------
[INFO] Total time: 08:12 min
[INFO] Finished at: 2015-12-13T16:26:48+08:00
[INFO] Final Memory: 133M/960M
[INFO] -----------------------------------------------------------------
打包成功後的DataX包位於 {DataX_source_code_home}/target/datax/datax/ ,結構如下:
$ cd {DataX_source_code_home}
$ ls ./target/datax/datax/
bin conf job lib log log_perf plugin script tmp
四、配置示例
例:從stream讀取數據並打印到控製台
第一步、創建創業的配置文件(json格式)
#stream2stream.json
{
"job": {
"setting": {
"speed": {
"channel": 5
}
},
"content": [
{
"reader": {
"name": "streamreader",
"parameter": {
"sliceRecordCount": 10,
"column": [
{
"type": "long",
"value": "10"
},
{
"type": "string",
"value": "hello,你好,世界-DataX"
},
{
"type": "double",
"value": "3.141592653"
},
{
"type": "bytes",
"value": "image"
},
{
"type": "bool",
"value": "true"
},
{
"type": "bool",
"value": "5678true"
},
{
"type": "date",
"value": "2014-10-10",
"dateFormat": "yyyy-MM-dd"
}
]
}
},
"writer": {
"name": "streamwriter",
"parameter": {
"encoding": "UTF-8",
"print": true
}
}
}
]
}
}
第二步:啟動DataX
$ cd {YOUR_DATAX_DIR_BIN}
$ python datax.py ./stream2stream.json
同步結束,顯示日誌如下:
...
2015-12-17 11:20:25.263 [job-0] INFO JobContainer -
任務啟動時刻 : 2015-12-17 11:20:15
任務結束時刻 : 2015-12-17 11:20:25
任務總計耗時 : 10s
任務平均流量 : 205B/s
記錄寫入速度 : 5rec/s
讀出記錄總數 : 50
讀寫失敗總數 : 0
五、了解更多
最後更新:2016-11-24 11:23:47
上一篇:
查看作業髒數據__作業管理_SDK參考手冊_數據集成-阿裏雲
下一篇:
Flume MaxCompute Sink插件__數據入雲_數據集成-阿裏雲
簡單下載__下載文件_開發人員指南_對象存儲 OSS-阿裏雲
修改消費位點__數據訂閱_用戶指南_數據傳輸-阿裏雲
直播常見名詞解釋__產品常見問題_視頻直播-阿裏雲
EDAS 容器版本說明__產品係列及發行說明_企業級分布式應用服務 EDAS-阿裏雲
TableTunnel__SDK介紹_批量數據通道_大數據計算服務-阿裏雲
阿裏雲棲大會音樂節門票中獎名單公布
搭建 WordPress 網站___建站教程_雲服務器 ECS-阿裏雲
每個連接達不到帶寬峰值__帶寬峰值常見問題_常見問題_負載均衡-阿裏雲
測試指標__性能測試技術體係_性能測試體係_性能測試-阿裏雲
日誌服務__產品管理_控製台使用手冊_阿裏雲物聯網套件-阿裏雲
相關內容
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲