E-MapReduce SDK 发布说明__开发人员指南_E-MapReduce-阿里云

说明

emr-core 包：实现 Hadoop/Spark 与 OSS 数据源的交互，默认已经存在集群的运行环境中，用户作业打包时 不需要 将 emr-core 打进去，或者要和集群中的 emr-core 版本保持一致。

emr-sdk_2.10 包：实现 Spark 与阿里云其他数据源的交互，例如 Log Service、MNS、ONS 和 ODPS 等等。用户作业打包时必须将 emr-sdk_2.10 打包进去，否则会出现相关类找不到的错。

  <dependency>
      <groupId>com.aliyun.emr</groupId>
      <artifactId>emr-core</artifactId>
      <version>1.1.3.1</version>
  </dependency>
  <dependency>
      <groupId>com.aliyun.emr</groupId>
      <artifactId>emr-sdk_2.10</artifactId>
      <version>1.1.3.1</version>
  </dependency>

`v1.1.3.1`

SDK


解决 MNS 与 Spark/Hadoop 包的依赖冲突问题。
解决 Spark Streaming + MNS 某些场景下抛空指针问题。
解决 Python SDK 的部分 BUG。
Spark Streaming + Loghub 支持自定义时间位置的功能。
Core
解决 Hadoop 无法支持原生 Snappy 文件问题。目前 E-MapReduce 支持处理 Log Service 以 Snappy 格式归档到 OSS 的文件。
解决 Spark 无法支持 Snappy 压缩文件的问题。
解决 OSS 不支持 Hadoop 2.7.2 OutputCommitter 两种算法的问题。
改善 Hadoop/Spark 读写 OSS 的性能。
解决 Spark 作业打印的 Log4j 异常输出的问题。
v1.1.2
解决作业慢读写 OSS 出现的“ConnectionClosedException”问题。
解决OSS数据源时部分 Hadoop 命令不可用问题。
解决“java.text.ParseException: Unparseable date”问题。
优化 emr-core 支持本地调试运行。
兼容老版本的产生的“_$folder$”文件，解释成目录，不再当作普通文件处理。
Hadoop/Spark 读写 OSS 增加失败重试机制。
v1.1.1
解决本地写 OSS 临时文件时导致多磁盘使用不均衡的问题。
去除作业执行过程中创建 OSS 目录时同时创建的 $_folder$ 标记文件。
v1.1.0
升级 LogHub SDK 到 0.6.2，废弃 Client DB 模式，使用 Server DB 模式。
升级 OSS SDK 到 2.2.0，修复 OSS SDK BUG 导致的运行异常。
新增对 MNS 的支持。
兼容性
对于 1.0.x 系列 SDK接口： 兼容
命名空间：不兼容：调整包结构，将包名称 com.aliyun 更换为 com.aliyun.emr。
修改项目的 groupId，从 com.aliyun 改为 com.aliyun.emr。修改后的 POM 依赖为：
  <dependency>
      <groupId>com.aliyun.emr</groupId>
      <artifactId>emr-sdk_2.10</artifactId>
      <version>1.1.3.1</version>
  </dependency>
v1.0.5
优化 LoghubUtils 接口，优化参数输入。
优化 LogStore 数据的输出格式，增加“topic” 和“source”两个字段。
增加 LogStore 数据拉取的时间间隔参数配置。参数“spark.logservice.fetch.interval.millis”，默认值 200 毫秒。
更新依赖 ODPS SDK 版本到 0.20.7-public。
v1.0.4
将 guava 的依赖版本降为 11.0.2，避免和 Hadoop 中的 guava 版本冲突。
计算任务支持数据超过 5GB 的文件大小。
v1.0.3
增加 OSS Client 相关的配置参数。
v1.0.2
修复 OSS URI 解析出错的 BUG。
v1.0.1
优化 OSS URI 设置。
增加对 ONS 的支持。
增加 Log Service 的支持。
支持 OSS 的追加写特性。
支持以 multi part 方式上传 OSS 数据。
支持以 upload part copy 方式拷贝 OSS 数据。
Java Doc
本 Do c中介绍了在 Spark 环境中使用 SDK 来读写阿里云 OSS、ODPS、Log Service 以及 ONS 产品中的数据。请点击下载最新版 doc 文档。
  最后更新：2016-11-23 16:04:18
  上一篇： HBase备份__开发人员指南_E-MapReduce-阿里云
  下一篇： API一览__API参考_E-MapReduce-阿里云
相关内容
 ColumnCondition__DataType_API 参考_表格存储-阿里云
 联系我们__联系方式_业务实时监控服务 ARMS-阿里云
 错误码说明__调用方式_API参考手册_开放搜索-阿里云
 阿里云若胜诉我们就欠快播一个会员，阿里云败诉判赔26万
 签名密钥绑定API__后端签名密钥相关接口_API_API 网关-阿里云
 技术干货：阿里云构建千万级架构演变之路
 阿里云推出新一代企业级ECS 让天下没有难做的生意
 修改连接串__实例管理_API 参考_云数据库 RDS 版-阿里云
 转换证书格式__证书管理_用户指南_负载均衡-阿里云
 离线排查、防火墙ACL配置__Agent_服务器安全(安骑士)-阿里云
热门内容
 常见错误说明__附录_大数据计算服务-阿里云
 发送短信接口__API使用手册_短信服务-阿里云
 接口文档__Android_安全组件教程_移动安全-阿里云
 运营商错误码（联通）__常见问题_短信服务-阿里云
 设置短信模板__使用手册_短信服务-阿里云
 OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
 消息通知__操作指南_批量计算-阿里云
 设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
 查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
 使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云
最新内容
 阿里云承认过去两天其客户无法访问部分境外服务器
 阿里云技术与生态合作论坛等你来撩！
 1.1亿红包 阿里云生态联合创新中心打造企业级“双11狂欢节”
 阿里云技术与生态合作论坛强势来袭！
 阿里云携手隆力奇共创新零售时代
 阿里云携手隆力奇共创新零售时代！
 IT培训细分化：云计算和大数据缺口催生“阿里云大学”
 阿里云上的大公司：选择与谋变
 阿里云架构师基础培训课程-北京站
 AlphaGo Zero横空出世；利尔达：阿里云物联网市场创始合作伙伴