閱讀177 返回首頁    go windows


DataX__數據入雲_數據集成-阿裏雲

DataX 是阿裏巴巴集團內被廣泛使用的離線數據同步工具/平台,實現包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各種異構數據源之間高效的數據同步功能。

二、環境要求

1、Linux

2、JDK(1.6以上,推薦1.6)

3、Python(推薦Python2.6.X)

4、Apache Maven 3.x (若不編譯DataX源碼,則不需要)

三、工具部署

方法一、直接下載DataX工具包:DataX

下載後解壓至本地某個目錄,進入bin目錄,即可運行同步作業:

$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}

同步作業配置模板,請參考DataX各個插件配置模板和參數說明

方法二、下載DataX源碼,自己編譯:DataX源碼

(1)、下載DataX源碼:

$ git clone git@github.com:alibaba/DataX.git

(2)、通過maven打包:

$ cd  {DataX_source_code_home}
$ mvn -U clean package assembly:assembly -Dmaven.test.skip=true

打包成功,日誌顯示如下:

[INFO] BUILD SUCCESS
[INFO] -----------------------------------------------------------------
[INFO] Total time: 08:12 min
[INFO] Finished at: 2015-12-13T16:26:48+08:00
[INFO] Final Memory: 133M/960M
[INFO] -----------------------------------------------------------------

打包成功後的DataX包位於 {DataX_source_code_home}/target/datax/datax/ ,結構如下:

$ cd  {DataX_source_code_home}
$ ls ./target/datax/datax/
bin        conf        job        lib        log        log_perf    plugin        script        tmp

四、配置示例

例:從stream讀取數據並打印到控製台

第一步、創建創業的配置文件(json格式)

#stream2stream.json
{
  "job": {
    "setting": {
      "speed": {
        "channel": 5
      }
    },
    "content": [
      {
        "reader": {
          "name": "streamreader",
          "parameter": {
            "sliceRecordCount": 10,
            "column": [
              {
                "type": "long",
                "value": "10"
              },
              {
                "type": "string",
                "value": "hello,你好,世界-DataX"
              },
              {
                "type": "double",
                "value": "3.141592653"
              },
              {
                "type": "bytes",
                "value": "image"
              },
              {
                "type": "bool",
                "value": "true"
              },
              {
                "type": "bool",
                "value": "5678true"
              },
              {
                "type": "date",
                "value": "2014-10-10",
                "dateFormat": "yyyy-MM-dd"
              }
            ]
          }
        },
        "writer": {
          "name": "streamwriter",
          "parameter": {
            "encoding": "UTF-8",
            "print": true
          }
        }
      }
    ]
  }
}

第二步:啟動DataX

$ cd {YOUR_DATAX_DIR_BIN}
$ python datax.py ./stream2stream.json

同步結束,顯示日誌如下:

...
2015-12-17 11:20:25.263 [job-0] INFO  JobContainer - 
任務啟動時刻                    : 2015-12-17 11:20:15
任務結束時刻                    : 2015-12-17 11:20:25
任務總計耗時                    :                 10s
任務平均流量                    :              205B/s
記錄寫入速度                    :              5rec/s
讀出記錄總數                    :                  50
讀寫失敗總數                    :                   0

五、了解更多

Datax開源地址

DataX各個插件配置模板和參數說明

最後更新:2016-11-24 11:23:47

  上一篇:go 查看作業髒數據__作業管理_SDK參考手冊_數據集成-阿裏雲
  下一篇:go Flume MaxCompute Sink插件__數據入雲_數據集成-阿裏雲