閱讀351 返回首頁    go 人物


E-MapReduce SDK 發布說明__開發人員指南_E-MapReduce-阿裏雲

說明

  • emr-core 包:實現 Hadoop/Spark 與 OSS 數據源的交互,默認已經存在集群的運行環境中,用戶作業打包時 不需要 將 emr-core 打進去,或者要和集群中的 emr-core 版本保持一致。

  • emr-sdk_2.10 包:實現 Spark 與阿裏雲其他數據源的交互,例如 Log Service、MNS、ONS 和 ODPS 等等。用戶作業打包時 必須 將 emr-sdk_2.10 打包進去,否則會出現相關類找不到的錯。

    1. <dependency>
    2. <groupId>com.aliyun.emr</groupId>
    3. <artifactId>emr-core</artifactId>
    4. <version>1.1.3.1</version>
    5. </dependency>
    6. <dependency>
    7. <groupId>com.aliyun.emr</groupId>
    8. <artifactId>emr-sdk_2.10</artifactId>
    9. <version>1.1.3.1</version>
    10. </dependency>

v1.1.3.1

SDK

  • 解決 MNS 與 Spark/Hadoop 包的依賴衝突問題。

  • 解決 Spark Streaming + MNS 某些場景下拋空指針問題。

  • 解決 Python SDK 的部分 BUG。

  • Spark Streaming + Loghub 支持自定義時間位置的功能。

Core

  • 解決 Hadoop 無法支持原生 Snappy 文件問題。目前 E-MapReduce 支持處理 Log Service 以 Snappy 格式歸檔到 OSS 的文件。

  • 解決 Spark 無法支持 Snappy 壓縮文件的問題。

  • 解決 OSS 不支持 Hadoop 2.7.2 OutputCommitter 兩種算法的問題。

  • 改善 Hadoop/Spark 讀寫 OSS 的性能。

  • 解決 Spark 作業打印的 Log4j 異常輸出的問題。

v1.1.2

  • 解決作業慢讀寫 OSS 出現的“ConnectionClosedException”問題。

  • 解決OSS數據源時部分 Hadoop 命令不可用問題。

  • 解決“java.text.ParseException: Unparseable date”問題。

  • 優化 emr-core 支持本地調試運行。

  • 兼容老版本的產生的“_$folder$”文件,解釋成目錄,不再當作普通文件處理。

  • Hadoop/Spark 讀寫 OSS 增加失敗重試機製。

v1.1.1

  • 解決本地寫 OSS 臨時文件時導致多磁盤使用不均衡的問題。

  • 去除作業執行過程中創建 OSS 目錄時同時創建的 $_folder$ 標記文件。

v1.1.0

  • 升級 LogHub SDK 到 0.6.2,廢棄 Client DB 模式,使用 Server DB 模式。

  • 升級 OSS SDK 到 2.2.0,修複 OSS SDK BUG 導致的運行異常。

  • 新增對 MNS 的支持。

  • 兼容性

    • 對於 1.0.x 係列 SDK
      • 接口:
        • 兼容
      • 命名空間:
        • 不兼容:調整包結構,將包名稱 com.aliyun 更換為 com.aliyun.emr。
  • 修改項目的 groupId,從 com.aliyun 改為 com.aliyun.emr。修改後的 POM 依賴為:

    1. <dependency>
    2. <groupId>com.aliyun.emr</groupId>
    3. <artifactId>emr-sdk_2.10</artifactId>
    4. <version>1.1.3.1</version>
    5. </dependency>

v1.0.5

  • 優化 LoghubUtils 接口,優化參數輸入。

  • 優化 LogStore 數據的輸出格式,增加“topic” 和“source”兩個字段。

  • 增加 LogStore 數據拉取的時間間隔參數配置。參數“spark.logservice.fetch.interval.millis”,默認值 200 毫秒。

  • 更新依賴 ODPS SDK 版本到 0.20.7-public。

v1.0.4

  • 將 guava 的依賴版本降為 11.0.2,避免和 Hadoop 中的 guava 版本衝突。

  • 計算任務支持數據超過 5GB 的文件大小。

v1.0.3

  • 增加 OSS Client 相關的配置參數。

v1.0.2

  • 修複 OSS URI 解析出錯的 BUG。

v1.0.1

  • 優化 OSS URI 設置。

  • 增加對 ONS 的支持。

  • 增加 Log Service 的支持。

  • 支持 OSS 的追加寫特性。

  • 支持以 multi part 方式上傳 OSS 數據。

  • 支持以 upload part copy 方式拷貝 OSS 數據。

Java Doc

本 Do c中介紹了在 Spark 環境中使用 SDK 來讀寫阿裏雲 OSS、ODPS、Log Service 以及 ONS 產品中的數據。請點擊下載最新版 doc 文檔

最後更新:2016-11-23 16:04:18

  上一篇:go HBase備份__開發人員指南_E-MapReduce-阿裏雲
  下一篇:go API一覽__API參考_E-MapReduce-阿裏雲