351
阿里云
E-MapReduce SDK 发布说明__开发人员指南_E-MapReduce-阿里云
说明
emr-core 包:实现 Hadoop/Spark 与 OSS 数据源的交互,默认已经存在集群的运行环境中,用户作业打包时 不需要 将 emr-core 打进去,或者要和集群中的 emr-core 版本保持一致。
emr-sdk_2.10 包:实现 Spark 与阿里云其他数据源的交互,例如 Log Service、MNS、ONS 和 ODPS 等等。用户作业打包时 必须 将 emr-sdk_2.10 打包进去,否则会出现相关类找不到的错。
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-core</artifactId>
<version>1.1.3.1</version>
</dependency>
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.10</artifactId>
<version>1.1.3.1</version>
</dependency>
v1.1.3.1
SDK
解决 MNS 与 Spark/Hadoop 包的依赖冲突问题。
解决 Spark Streaming + MNS 某些场景下抛空指针问题。
解决 Python SDK 的部分 BUG。
Spark Streaming + Loghub 支持自定义时间位置的功能。
Core
解决 Hadoop 无法支持原生 Snappy 文件问题。目前 E-MapReduce 支持处理 Log Service 以 Snappy 格式归档到 OSS 的文件。
解决 Spark 无法支持 Snappy 压缩文件的问题。
解决 OSS 不支持 Hadoop 2.7.2 OutputCommitter 两种算法的问题。
改善 Hadoop/Spark 读写 OSS 的性能。
解决 Spark 作业打印的 Log4j 异常输出的问题。
v1.1.2
解决作业慢读写 OSS 出现的“ConnectionClosedException”问题。
解决OSS数据源时部分 Hadoop 命令不可用问题。
解决“java.text.ParseException: Unparseable date”问题。
优化 emr-core 支持本地调试运行。
兼容老版本的产生的“_$folder$”文件,解释成目录,不再当作普通文件处理。
Hadoop/Spark 读写 OSS 增加失败重试机制。
v1.1.1
解决本地写 OSS 临时文件时导致多磁盘使用不均衡的问题。
去除作业执行过程中创建 OSS 目录时同时创建的 $_folder$ 标记文件。
v1.1.0
升级 LogHub SDK 到 0.6.2,废弃 Client DB 模式,使用 Server DB 模式。
升级 OSS SDK 到 2.2.0,修复 OSS SDK BUG 导致的运行异常。
新增对 MNS 的支持。
兼容性
- 对于 1.0.x 系列 SDK
- 接口:
- 兼容
- 命名空间:
- 不兼容:调整包结构,将包名称 com.aliyun 更换为 com.aliyun.emr。
- 接口:
- 对于 1.0.x 系列 SDK
修改项目的 groupId,从 com.aliyun 改为 com.aliyun.emr。修改后的 POM 依赖为:
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.10</artifactId>
<version>1.1.3.1</version>
</dependency>
v1.0.5
优化 LoghubUtils 接口,优化参数输入。
优化 LogStore 数据的输出格式,增加“topic” 和“source”两个字段。
增加 LogStore 数据拉取的时间间隔参数配置。参数“spark.logservice.fetch.interval.millis”,默认值 200 毫秒。
更新依赖 ODPS SDK 版本到 0.20.7-public。
v1.0.4
将 guava 的依赖版本降为 11.0.2,避免和 Hadoop 中的 guava 版本冲突。
计算任务支持数据超过 5GB 的文件大小。
v1.0.3
- 增加 OSS Client 相关的配置参数。
v1.0.2
- 修复 OSS URI 解析出错的 BUG。
v1.0.1
优化 OSS URI 设置。
增加对 ONS 的支持。
增加 Log Service 的支持。
支持 OSS 的追加写特性。
支持以 multi part 方式上传 OSS 数据。
- 支持以 upload part copy 方式拷贝 OSS 数据。
Java Doc
本 Do c中介绍了在 Spark 环境中使用 SDK 来读写阿里云 OSS、ODPS、Log Service 以及 ONS 产品中的数据。请点击下载最新版 doc 文档。
最后更新:2016-11-23 16:04:18
上一篇:
HBase备份__开发人员指南_E-MapReduce-阿里云
下一篇:
API一览__API参考_E-MapReduce-阿里云
ColumnCondition__DataType_API 参考_表格存储-阿里云
联系我们__联系方式_业务实时监控服务 ARMS-阿里云
错误码说明__调用方式_API参考手册_开放搜索-阿里云
阿里云若胜诉我们就欠快播一个会员,阿里云败诉判赔26万
签名密钥绑定API__后端签名密钥相关接口_API_API 网关-阿里云
技术干货:阿里云构建千万级架构演变之路
阿里云推出新一代企业级ECS 让天下没有难做的生意
修改连接串__实例管理_API 参考_云数据库 RDS 版-阿里云
转换证书格式__证书管理_用户指南_负载均衡-阿里云
离线排查、防火墙ACL配置__Agent_服务器安全(安骑士)-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云