閱讀654 返回首頁    go 團貸網


SDK-Release__Spark_開發人員指南_E-MapReduce-阿裏雲

Aliyun Spark SDK Release Note

說明

  • emr-core包:實現Hadoop/Spark與OSS數據源的交互,默認已經存在集群的運行環境中,用戶作業打包時 不需要 將emr-core打進去,或者要保持和集群中的emr-core版本一致。

  • emr-sdk_2.10包:實現Spark與阿裏雲其他數據源的交互,例如LogService,MNS,ONS和ODPS等等。用戶作業打包時 必須 將emr-sdk_2.10/emr-sdk_2.11打包進去,否則會出現相關類找不到的錯。

  1. <dependency>
  2. <groupId>com.aliyun.emr</groupId>
  3. <artifactId>emr-core</artifactId>
  4. <version>1.3.1</version>
  5. </dependency>
  6. <!-- 支持 MNS、ONS、LogService、MaxCompute數據源 (Spark 1.x環境)-->
  7. <dependency>
  8. <groupId>com.aliyun.emr</groupId>
  9. <artifactId>emr-sdk_2.10</artifactId>
  10. <version>1.3.1</version>
  11. </dependency>
  12. <!-- 支持 MNS、ONS、LogService、MaxCompute數據源 (Spark 2.x環境)-->
  13. <dependency>
  14. <groupId>com.aliyun.emr</groupId>
  15. <artifactId>emr-sdk_2.11</artifactId>
  16. <version>1.3.1</version>
  17. </dependency>

v1.3.1

  • 修複Spark+LogService部分場景下拋空指針問題
  • 從這個版本開始,SDK支持Spark2.x環境

v1.3.0

  • HadoopMR, Spark, SparkSQL, Hive讀取OTS數據
  • MNS和LogService支持E-MapReduce的MetaServie功能,支持在E-MapReduce環境下免AK訪問MNS和LogService數據
  • 升級部分依賴包版本

v1.1.3.1

SDK:

  • 解決MNS與Spark/Hadoop包的依賴衝突問題
  • 解決Spark Streaming + MNS某些場景下拋空指針問題
  • 解決python sdk的部分BUG
  • Spark Streaming + Loghub支持自定義時間位置的功能

Core

  • 解決Hadoop無法支持原生Snappy文件問題。目前E-MapReduce支持處理LogService以Snappy格式歸檔到OSS的文件
  • 解決Spark無法支持Snappy壓縮文件的問題
  • 解決OSS不支持Hadoop2.7.2 OutputCommitter兩種算法的問題
  • 改善Hadoop/Spark讀寫OSS的性能
  • 解決Spark作業打印的Log4j異常輸出的問題

v1.1.2

  • 解決作業慢讀寫OSS出現的“ConnectionClosedException”問題。
  • 解決OSS數據源時部分hadoop命令不可用問題。
  • 解決“java.text.ParseException: Unparseable date”問題。
  • 優化emr-core支持本地調試運行。
  • 兼容老版本的產生的“_$folder$”文件,解釋成目錄,不再當作普通文件處理。
  • Hadoop/Spark讀寫OSS增加失敗重試機製。

v1.1.1

  • 解決本地寫OSS臨時文件時導致多磁盤使用不均衡的問題。
  • 去除作業執行過程中創建OSS目錄時同時創建的$_folder$標記文件。

v1.1.0

  • 升級LogHub SDK到0.6.2,廢棄Client DB模式,使用Server DB模式。
  • 升級OSS SDK到2.2.0,修複OSS SDK BUG導致的運行異常。
  • 新增對MNS的支持。
  • 兼容性
    • 對於1.0.x係列SDK
      • 接口:
        • 兼容
      • 命名空間:
        • 不兼容:調整包結構,將包名稱com.aliyun更換為com.aliyun.emr
  • 修改項目的groupId,從com.aliyun改為com.aliyun.emr。修改後的POM依賴為
    1. <dependency>
    2. <groupId>com.aliyun.emr</groupId>
    3. <artifactId>emr-sdk_2.10</artifactId>
    4. <version>1.1.3.1</version>
    5. </dependency>

v1.0.5

  • 優化LoghubUtils接口,優化參數輸入。
  • 優化LogStore數據的輸出格式,增加“topic” 和“source”兩個字段。
  • 增加LogStore數據拉取的時間間隔參數配置。參數“spark.logservice.fetch.interval.millis”,默認值200毫秒。
  • 更新依賴ODPS SDK版本到0.20.7-public。

v1.0.4

  • 將guava的依賴版本降為11.0.2,避免和Hadoop中的guava版本衝突。
  • 計算任務支持數據超過5GB的文件大小。

v1.0.3

  • 增加OSS Client相關的配置參數。

v1.0.2

  • 修複OSS URI解析出錯的BUG。

v1.0.1

  • 優化OSS URI設置。
  • 增加對ONS的支持。
  • 增加LogService的支持。
  • 支持OSS的追加寫特性。
  • 支持以multi part方式上傳OSS數據。
  • 支持以upload part copy方式拷貝OSS數據。

Java Doc

本Doc中介紹了在Spark環境中使用SDK來讀寫阿裏雲OSS,ODPS,LogService以及ONS產品中的數據。請點擊下載最新版doc文檔

最後更新:2016-12-19 18:15:52

  上一篇:go spark-submit 參數設置說明__Spark_開發人員指南_E-MapReduce-阿裏雲
  下一篇:go MapReduce 開發手冊__Hadoop_開發人員指南_E-MapReduce-阿裏雲