654
團貸網
SDK-Release__Spark_開發人員指南_E-MapReduce-阿裏雲
Aliyun Spark SDK Release Note
說明
emr-core包:實現Hadoop/Spark與OSS數據源的交互,默認已經存在集群的運行環境中,用戶作業打包時 不需要 將emr-core打進去,或者要保持和集群中的emr-core版本一致。
emr-sdk_2.10包:實現Spark與阿裏雲其他數據源的交互,例如LogService,MNS,ONS和ODPS等等。用戶作業打包時 必須 將emr-sdk_2.10/emr-sdk_2.11打包進去,否則會出現相關類找不到的錯。
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-core</artifactId>
<version>1.3.1</version>
</dependency>
<!-- 支持 MNS、ONS、LogService、MaxCompute數據源 (Spark 1.x環境)-->
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.10</artifactId>
<version>1.3.1</version>
</dependency>
<!-- 支持 MNS、ONS、LogService、MaxCompute數據源 (Spark 2.x環境)-->
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.11</artifactId>
<version>1.3.1</version>
</dependency>
v1.3.1
- 修複Spark+LogService部分場景下拋空指針問題
- 從這個版本開始,SDK支持Spark2.x環境
v1.3.0
- HadoopMR, Spark, SparkSQL, Hive讀取OTS數據
- MNS和LogService支持E-MapReduce的MetaServie功能,支持在E-MapReduce環境下免AK訪問MNS和LogService數據
- 升級部分依賴包版本
v1.1.3.1
SDK:
- 解決MNS與Spark/Hadoop包的依賴衝突問題
- 解決Spark Streaming + MNS某些場景下拋空指針問題
- 解決python sdk的部分BUG
- Spark Streaming + Loghub支持自定義時間位置的功能
Core
- 解決Hadoop無法支持原生Snappy文件問題。目前E-MapReduce支持處理LogService以Snappy格式歸檔到OSS的文件
- 解決Spark無法支持Snappy壓縮文件的問題
- 解決OSS不支持Hadoop2.7.2 OutputCommitter兩種算法的問題
- 改善Hadoop/Spark讀寫OSS的性能
- 解決Spark作業打印的Log4j異常輸出的問題
v1.1.2
- 解決作業慢讀寫OSS出現的“ConnectionClosedException”問題。
- 解決OSS數據源時部分hadoop命令不可用問題。
- 解決“java.text.ParseException: Unparseable date”問題。
- 優化emr-core支持本地調試運行。
- 兼容老版本的產生的“_$folder$”文件,解釋成目錄,不再當作普通文件處理。
- Hadoop/Spark讀寫OSS增加失敗重試機製。
v1.1.1
- 解決本地寫OSS臨時文件時導致多磁盤使用不均衡的問題。
- 去除作業執行過程中創建OSS目錄時同時創建的$_folder$標記文件。
v1.1.0
- 升級LogHub SDK到0.6.2,廢棄Client DB模式,使用Server DB模式。
- 升級OSS SDK到2.2.0,修複OSS SDK BUG導致的運行異常。
- 新增對MNS的支持。
- 兼容性
- 對於1.0.x係列SDK
- 接口:
- 兼容
- 命名空間:
- 不兼容:調整包結構,將包名稱com.aliyun更換為com.aliyun.emr
- 接口:
- 對於1.0.x係列SDK
- 修改項目的groupId,從com.aliyun改為com.aliyun.emr。修改後的POM依賴為
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.10</artifactId>
<version>1.1.3.1</version>
</dependency>
v1.0.5
- 優化LoghubUtils接口,優化參數輸入。
- 優化LogStore數據的輸出格式,增加“topic” 和“source”兩個字段。
- 增加LogStore數據拉取的時間間隔參數配置。參數“spark.logservice.fetch.interval.millis”,默認值200毫秒。
- 更新依賴ODPS SDK版本到0.20.7-public。
v1.0.4
- 將guava的依賴版本降為11.0.2,避免和Hadoop中的guava版本衝突。
- 計算任務支持數據超過5GB的文件大小。
v1.0.3
- 增加OSS Client相關的配置參數。
v1.0.2
- 修複OSS URI解析出錯的BUG。
v1.0.1
- 優化OSS URI設置。
- 增加對ONS的支持。
- 增加LogService的支持。
- 支持OSS的追加寫特性。
- 支持以multi part方式上傳OSS數據。
- 支持以upload part copy方式拷貝OSS數據。
Java Doc
本Doc中介紹了在Spark環境中使用SDK來讀寫阿裏雲OSS,ODPS,LogService以及ONS產品中的數據。請點擊下載最新版doc文檔。
最後更新:2016-12-19 18:15:52
上一篇:
spark-submit 參數設置說明__Spark_開發人員指南_E-MapReduce-阿裏雲
下一篇:
MapReduce 開發手冊__Hadoop_開發人員指南_E-MapReduce-阿裏雲
查詢任務列表__其他接口_API 參考_雲服務器 ECS-阿裏雲
8.6 使用本地客戶端連接分析型數據庫__第八章 在生產中使用分析型數據庫_使用手冊_分析型數據庫-阿裏雲
備案是否要先購買服務器__備案基礎介紹_備案須知_備案-阿裏雲
查詢媒體Bucket__媒體Bucket接口_API使用手冊_視頻點播-阿裏雲
視頻轉碼 Python SDK 安裝及調用___視頻專區_媒體轉碼-阿裏雲
不同域名注冊商修改 DNS 方法__DNS修改_產品使用問題_雲解析-阿裏雲
查詢專有網絡列表__專有網絡相關接口_API 參考_雲服務器 ECS-阿裏雲
創建 Access Key__SDK 參考_雲服務器 ECS-阿裏雲
全局 SDK 版本配置__配置命令行工具和 SDK_用戶指南_命令行工具 CLI-阿裏雲
ForwardEntrySetType__數據類型_API 參考_雲服務器 ECS-阿裏雲
相關內容
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲