SDK-Release__Spark_开发人员指南_E-MapReduce-阿里云
Aliyun Spark SDK Release Note
说明
emr-core包:实现Hadoop/Spark与OSS数据源的交互,默认已经存在集群的运行环境中,用户作业打包时 不需要 将emr-core打进去,或者要保持和集群中的emr-core版本一致。
emr-sdk_2.10包:实现Spark与阿里云其他数据源的交互,例如LogService,MNS,ONS和ODPS等等。用户作业打包时 必须 将emr-sdk_2.10/emr-sdk_2.11打包进去,否则会出现相关类找不到的错。
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-core</artifactId>
<version>1.3.1</version>
</dependency>
<!-- 支持 MNS、ONS、LogService、MaxCompute数据源 (Spark 1.x环境)-->
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.10</artifactId>
<version>1.3.1</version>
</dependency>
<!-- 支持 MNS、ONS、LogService、MaxCompute数据源 (Spark 2.x环境)-->
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.11</artifactId>
<version>1.3.1</version>
</dependency>
v1.3.1
- 修复Spark+LogService部分场景下抛空指针问题
- 从这个版本开始,SDK支持Spark2.x环境
v1.3.0
- HadoopMR, Spark, SparkSQL, Hive读取OTS数据
- MNS和LogService支持E-MapReduce的MetaServie功能,支持在E-MapReduce环境下免AK访问MNS和LogService数据
- 升级部分依赖包版本
v1.1.3.1
SDK:
- 解决MNS与Spark/Hadoop包的依赖冲突问题
- 解决Spark Streaming + MNS某些场景下抛空指针问题
- 解决python sdk的部分BUG
- Spark Streaming + Loghub支持自定义时间位置的功能
Core
- 解决Hadoop无法支持原生Snappy文件问题。目前E-MapReduce支持处理LogService以Snappy格式归档到OSS的文件
- 解决Spark无法支持Snappy压缩文件的问题
- 解决OSS不支持Hadoop2.7.2 OutputCommitter两种算法的问题
- 改善Hadoop/Spark读写OSS的性能
- 解决Spark作业打印的Log4j异常输出的问题
v1.1.2
- 解决作业慢读写OSS出现的“ConnectionClosedException”问题。
- 解决OSS数据源时部分hadoop命令不可用问题。
- 解决“java.text.ParseException: Unparseable date”问题。
- 优化emr-core支持本地调试运行。
- 兼容老版本的产生的“_$folder$”文件,解释成目录,不再当作普通文件处理。
- Hadoop/Spark读写OSS增加失败重试机制。
v1.1.1
- 解决本地写OSS临时文件时导致多磁盘使用不均衡的问题。
- 去除作业执行过程中创建OSS目录时同时创建的$_folder$标记文件。
v1.1.0
- 升级LogHub SDK到0.6.2,废弃Client DB模式,使用Server DB模式。
- 升级OSS SDK到2.2.0,修复OSS SDK BUG导致的运行异常。
- 新增对MNS的支持。
- 兼容性
- 对于1.0.x系列SDK
- 接口:
- 兼容
- 命名空间:
- 不兼容:调整包结构,将包名称com.aliyun更换为com.aliyun.emr
- 接口:
- 对于1.0.x系列SDK
- 修改项目的groupId,从com.aliyun改为com.aliyun.emr。修改后的POM依赖为
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.10</artifactId>
<version>1.1.3.1</version>
</dependency>
v1.0.5
- 优化LoghubUtils接口,优化参数输入。
- 优化LogStore数据的输出格式,增加“topic” 和“source”两个字段。
- 增加LogStore数据拉取的时间间隔参数配置。参数“spark.logservice.fetch.interval.millis”,默认值200毫秒。
- 更新依赖ODPS SDK版本到0.20.7-public。
v1.0.4
- 将guava的依赖版本降为11.0.2,避免和Hadoop中的guava版本冲突。
- 计算任务支持数据超过5GB的文件大小。
v1.0.3
- 增加OSS Client相关的配置参数。
v1.0.2
- 修复OSS URI解析出错的BUG。
v1.0.1
- 优化OSS URI设置。
- 增加对ONS的支持。
- 增加LogService的支持。
- 支持OSS的追加写特性。
- 支持以multi part方式上传OSS数据。
- 支持以upload part copy方式拷贝OSS数据。
Java Doc
本Doc中介绍了在Spark环境中使用SDK来读写阿里云OSS,ODPS,LogService以及ONS产品中的数据。请点击下载最新版doc文档。
最后更新:2016-12-19 18:15:52
上一篇:
spark-submit 参数设置说明__Spark_开发人员指南_E-MapReduce-阿里云
下一篇:
MapReduce 开发手册__Hadoop_开发人员指南_E-MapReduce-阿里云
查询任务列表__其他接口_API 参考_云服务器 ECS-阿里云
8.6 使用本地客户端连接分析型数据库__第八章 在生产中使用分析型数据库_使用手册_分析型数据库-阿里云
备案是否要先购买服务器__备案基础介绍_备案须知_备案-阿里云
查询媒体Bucket__媒体Bucket接口_API使用手册_视频点播-阿里云
视频转码 Python SDK 安装及调用___视频专区_媒体转码-阿里云
不同域名注册商修改 DNS 方法__DNS修改_产品使用问题_云解析-阿里云
查询专有网络列表__专有网络相关接口_API 参考_云服务器 ECS-阿里云
创建 Access Key__SDK 参考_云服务器 ECS-阿里云
全局 SDK 版本配置__配置命令行工具和 SDK_用户指南_命令行工具 CLI-阿里云
ForwardEntrySetType__数据类型_API 参考_云服务器 ECS-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云