SDK-Release__Spark_开发人员指南_E-MapReduce-阿里云

Aliyun Spark SDK Release Note

说明

emr-core包：实现Hadoop/Spark与OSS数据源的交互，默认已经存在集群的运行环境中，用户作业打包时 不需要 将emr-core打进去，或者要保持和集群中的emr-core版本一致。
emr-sdk_2.10包：实现Spark与阿里云其他数据源的交互，例如LogService，MNS，ONS和ODPS等等。用户作业打包时必须将emr-sdk_2.10／emr-sdk_2.11打包进去，否则会出现相关类找不到的错。

    <dependency>
        <groupId>com.aliyun.emr</groupId>
        <artifactId>emr-core</artifactId>
        <version>1.3.1</version>
    </dependency>
    <!-- 支持 MNS、ONS、LogService、MaxCompute数据源 (Spark 1.x环境)-->
    <dependency>
        <groupId>com.aliyun.emr</groupId>
        <artifactId>emr-sdk_2.10</artifactId>
        <version>1.3.1</version>
    </dependency>
    <!-- 支持 MNS、ONS、LogService、MaxCompute数据源 (Spark 2.x环境)-->
    <dependency>
        <groupId>com.aliyun.emr</groupId>
        <artifactId>emr-sdk_2.11</artifactId>
        <version>1.3.1</version>
    </dependency>

`v1.3.1`

修复Spark+LogService部分场景下抛空指针问题
从这个版本开始，SDK支持Spark2.x环境

`v1.3.0`

HadoopMR, Spark, SparkSQL, Hive读取OTS数据
MNS和LogService支持E-MapReduce的MetaServie功能，支持在E-MapReduce环境下免AK访问MNS和LogService数据
升级部分依赖包版本

`v1.1.3.1`

`SDK：`

解决MNS与Spark/Hadoop包的依赖冲突问题
解决Spark Streaming + MNS某些场景下抛空指针问题
解决python sdk的部分BUG
Spark Streaming + Loghub支持自定义时间位置的功能

`Core`

解决Hadoop无法支持原生Snappy文件问题。目前E-MapReduce支持处理LogService以Snappy格式归档到OSS的文件
解决Spark无法支持Snappy压缩文件的问题
解决OSS不支持Hadoop2.7.2 OutputCommitter两种算法的问题
改善Hadoop/Spark读写OSS的性能
解决Spark作业打印的Log4j异常输出的问题

`v1.1.2`

解决作业慢读写OSS出现的“ConnectionClosedException”问题。
解决OSS数据源时部分hadoop命令不可用问题。
解决“java.text.ParseException: Unparseable date”问题。
优化emr-core支持本地调试运行。
兼容老版本的产生的“_$folder$”文件，解释成目录，不再当作普通文件处理。
Hadoop/Spark读写OSS增加失败重试机制。

`v1.1.1`

解决本地写OSS临时文件时导致多磁盘使用不均衡的问题。
去除作业执行过程中创建OSS目录时同时创建的$_folder$标记文件。

`v1.1.0`

升级LogHub SDK到0.6.2，废弃Client DB模式，使用Server DB模式。
升级OSS SDK到2.2.0，修复OSS SDK BUG导致的运行异常。
新增对MNS的支持。
兼容性对于1.0.x系列SDK接口：兼容命名空间：不兼容：调整包结构，将包名称com.aliyun更换为com.aliyun.emr

修改项目的groupId，从com.aliyun改为com.aliyun.emr。修改后的POM依赖为  <dependency>
      <groupId>com.aliyun.emr</groupId>
      <artifactId>emr-sdk_2.10</artifactId>
      <version>1.1.3.1</version>
  </dependency>

`v1.0.5`

优化LoghubUtils接口，优化参数输入。
优化LogStore数据的输出格式，增加“topic” 和“source”两个字段。
增加LogStore数据拉取的时间间隔参数配置。参数“spark.logservice.fetch.interval.millis”，默认值200毫秒。
更新依赖ODPS SDK版本到0.20.7-public。

`v1.0.4`

将guava的依赖版本降为11.0.2，避免和Hadoop中的guava版本冲突。
计算任务支持数据超过5GB的文件大小。

`v1.0.3`

增加OSS Client相关的配置参数。

`v1.0.2`

修复OSS URI解析出错的BUG。

`v1.0.1`

优化OSS URI设置。
增加对ONS的支持。
增加LogService的支持。
支持OSS的追加写特性。
支持以multi part方式上传OSS数据。
支持以upload part copy方式拷贝OSS数据。

`Java Doc`

本Doc中介绍了在Spark环境中使用SDK来读写阿里云OSS，ODPS，LogService以及ONS产品中的数据。请点击下载最新版doc文档。

  最后更新：2016-12-19 18:15:52
  上一篇： spark-submit 参数设置说明__Spark_开发人员指南_E-MapReduce-阿里云
  下一篇： MapReduce 开发手册__Hadoop_开发人员指南_E-MapReduce-阿里云
相关内容
 查询任务列表__其他接口_API 参考_云服务器 ECS-阿里云
 8.6 使用本地客户端连接分析型数据库__第八章 在生产中使用分析型数据库_使用手册_分析型数据库-阿里云
 备案是否要先购买服务器__备案基础介绍_备案须知_备案-阿里云
 查询媒体Bucket__媒体Bucket接口_API使用手册_视频点播-阿里云
 视频转码 Python SDK 安装及调用___视频专区_媒体转码-阿里云
 不同域名注册商修改 DNS 方法__DNS修改_产品使用问题_云解析-阿里云
 查询专有网络列表__专有网络相关接口_API 参考_云服务器 ECS-阿里云
 创建 Access Key__SDK 参考_云服务器 ECS-阿里云
 全局 SDK 版本配置__配置命令行工具和 SDK_用户指南_命令行工具 CLI-阿里云
 ForwardEntrySetType__数据类型_API 参考_云服务器 ECS-阿里云
热门内容
 常见错误说明__附录_大数据计算服务-阿里云
 发送短信接口__API使用手册_短信服务-阿里云
 接口文档__Android_安全组件教程_移动安全-阿里云
 运营商错误码（联通）__常见问题_短信服务-阿里云
 设置短信模板__使用手册_短信服务-阿里云
 OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
 消息通知__操作指南_批量计算-阿里云
 设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
 查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
 使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云
最新内容
 阿里云服务器连接小米云：实现数据互通的多种方法
 阿里云盘彻底删除文件及恢复方法详解
 阿里云App扫码登录：快速安全访问云服务的便捷途径
 阿里云盘扩容技巧：深度解析如何获取更大存储空间
 阿里巴巴进军云计算：战略布局与商业逻辑深度解读
 阿里云云客服接入指南：从准备到上线的完整步骤
 阿里云安全防护全解析：从基础服务到高级策略
 阿里云金融云：深入解读其定位与服务
 腾讯云数据轻松迁移至阿里云：完整指南及最佳实践
 阿里云DRDS深度解析：分布式关系型数据库的架构、应用及优势