阅读351 返回首页    go 阿里云


E-MapReduce SDK 发布说明__开发人员指南_E-MapReduce-阿里云

说明

  • emr-core 包:实现 Hadoop/Spark 与 OSS 数据源的交互,默认已经存在集群的运行环境中,用户作业打包时 不需要 将 emr-core 打进去,或者要和集群中的 emr-core 版本保持一致。

  • emr-sdk_2.10 包:实现 Spark 与阿里云其他数据源的交互,例如 Log Service、MNS、ONS 和 ODPS 等等。用户作业打包时 必须 将 emr-sdk_2.10 打包进去,否则会出现相关类找不到的错。

    1. <dependency>
    2. <groupId>com.aliyun.emr</groupId>
    3. <artifactId>emr-core</artifactId>
    4. <version>1.1.3.1</version>
    5. </dependency>
    6. <dependency>
    7. <groupId>com.aliyun.emr</groupId>
    8. <artifactId>emr-sdk_2.10</artifactId>
    9. <version>1.1.3.1</version>
    10. </dependency>

v1.1.3.1

SDK

  • 解决 MNS 与 Spark/Hadoop 包的依赖冲突问题。

  • 解决 Spark Streaming + MNS 某些场景下抛空指针问题。

  • 解决 Python SDK 的部分 BUG。

  • Spark Streaming + Loghub 支持自定义时间位置的功能。

Core

  • 解决 Hadoop 无法支持原生 Snappy 文件问题。目前 E-MapReduce 支持处理 Log Service 以 Snappy 格式归档到 OSS 的文件。

  • 解决 Spark 无法支持 Snappy 压缩文件的问题。

  • 解决 OSS 不支持 Hadoop 2.7.2 OutputCommitter 两种算法的问题。

  • 改善 Hadoop/Spark 读写 OSS 的性能。

  • 解决 Spark 作业打印的 Log4j 异常输出的问题。

v1.1.2

  • 解决作业慢读写 OSS 出现的“ConnectionClosedException”问题。

  • 解决OSS数据源时部分 Hadoop 命令不可用问题。

  • 解决“java.text.ParseException: Unparseable date”问题。

  • 优化 emr-core 支持本地调试运行。

  • 兼容老版本的产生的“_$folder$”文件,解释成目录,不再当作普通文件处理。

  • Hadoop/Spark 读写 OSS 增加失败重试机制。

v1.1.1

  • 解决本地写 OSS 临时文件时导致多磁盘使用不均衡的问题。

  • 去除作业执行过程中创建 OSS 目录时同时创建的 $_folder$ 标记文件。

v1.1.0

  • 升级 LogHub SDK 到 0.6.2,废弃 Client DB 模式,使用 Server DB 模式。

  • 升级 OSS SDK 到 2.2.0,修复 OSS SDK BUG 导致的运行异常。

  • 新增对 MNS 的支持。

  • 兼容性

    • 对于 1.0.x 系列 SDK
      • 接口:
        • 兼容
      • 命名空间:
        • 不兼容:调整包结构,将包名称 com.aliyun 更换为 com.aliyun.emr。
  • 修改项目的 groupId,从 com.aliyun 改为 com.aliyun.emr。修改后的 POM 依赖为:

    1. <dependency>
    2. <groupId>com.aliyun.emr</groupId>
    3. <artifactId>emr-sdk_2.10</artifactId>
    4. <version>1.1.3.1</version>
    5. </dependency>

v1.0.5

  • 优化 LoghubUtils 接口,优化参数输入。

  • 优化 LogStore 数据的输出格式,增加“topic” 和“source”两个字段。

  • 增加 LogStore 数据拉取的时间间隔参数配置。参数“spark.logservice.fetch.interval.millis”,默认值 200 毫秒。

  • 更新依赖 ODPS SDK 版本到 0.20.7-public。

v1.0.4

  • 将 guava 的依赖版本降为 11.0.2,避免和 Hadoop 中的 guava 版本冲突。

  • 计算任务支持数据超过 5GB 的文件大小。

v1.0.3

  • 增加 OSS Client 相关的配置参数。

v1.0.2

  • 修复 OSS URI 解析出错的 BUG。

v1.0.1

  • 优化 OSS URI 设置。

  • 增加对 ONS 的支持。

  • 增加 Log Service 的支持。

  • 支持 OSS 的追加写特性。

  • 支持以 multi part 方式上传 OSS 数据。

  • 支持以 upload part copy 方式拷贝 OSS 数据。

Java Doc

本 Do c中介绍了在 Spark 环境中使用 SDK 来读写阿里云 OSS、ODPS、Log Service 以及 ONS 产品中的数据。请点击下载最新版 doc 文档

最后更新:2016-11-23 16:04:18

  上一篇:go HBase备份__开发人员指南_E-MapReduce-阿里云
  下一篇:go API一览__API参考_E-MapReduce-阿里云