Spark-0.8 release新增特性及看點
Spark0.8已於今天正式發布,是Spark成為Apache頂級孵化項目後第一次重大發布。主要有幾方麵最大的改動:MLlib機器學習庫麵世;支持YARN;Python的提升及API的豐富;增加webUI監控。曆數這次重大更新的各個新增點,我最看重的是MLlib的發布,擴充了spark上機器學習基礎算法庫,MLbase也是初次正式麵世,參照現有scala的實現,開發者完全可以開始著手豐富自己的spark機器學習庫。
Spark0.8是一次龐大的發布,擁有67位開發者和24位成員的貢獻。Spark0.8已經可以下載,同樣可以現在source code自己編譯,或者下載預編譯過了的支持hadoop1/CDH3或hadoop2/CDH4的包。下載地址點擊打開鏈接。 大致Spark0.8有如下一些新增點。
Spark0.8是一次龐大的發布,擁有67位開發者和24位成員的貢獻。Spark0.8已經可以下載,同樣可以現在source code自己編譯,或者下載預編譯過了的支持hadoop1/CDH3或hadoop2/CDH4的包。下載地址點擊打開鏈接。 大致Spark0.8有如下一些新增點。
UI監控
增加了Web-UI下的監控,默認端口是4040,會job的running,succeeded,failed等信息,還覆蓋了一些任務執行時間,shuffled data,以及垃圾回收的統計信息。
機器學習庫
之前在看MLbase相關資料的時候,就得知MLlib會在Spark0.8的時候一起發布,而MLlib是一個機器學習算法庫,其實就是運行在Spark上的一個scala庫,起到充實Spark API的作用。目前支持以下幾個算法:SVM,邏輯回歸,若幹線性回歸,KMeans,協同過濾。具體在mllib目錄的src下都有scala源碼可以看,參照這些實現,我們可以在MLbase完全發布之前,自己模仿做一些機器學習基礎算法的擴充工作。
Python API擴充
之前0.7.2版本的python api沒有完全支持RDD的一些操作和特性(相比scala api),這次python api針對之前缺失的特性進行了擴充。
支持Hadoop YARN
spark0.8已經支持把spark任務跑到YARN上,對於YARN的支持不再是實驗性,而已經成為了spark的一部分。
革新job scheduler
Spark內部的job scheduler得到了重構和擴充,支持更複雜的調度策略。新的調度器將允許多個用戶共享一個spark實例,提高各類job執行性能。
更簡單的部署和連接(Hadoop)
不需要像之前那樣為特定的hadoop版本編譯spark,或者特意去替換core包,針對hadoop的打通有了更新更方便的方式。
關於Mesos的支持
默認Mesos版本的支持已提高到0.13.0,之前是Mesos-0.9.0,且部署Spark裝配包的時候,已經不需要在每個mesos節點上先預先部好Spark。
其他
- RDDs can now manually be dropped from memory with unpersist.
- The RDD class includes the following new operations: takeOrdered, zipPartitions, top.
- A JobLogger class has been added to produce archivable logs of a Spark workload.
- The RDD.coalesce function now takes into account locality.
- The RDD.pipe function has been extended to support passing environment variables to child processes.
- Hadoop save functions now support an optional compression codec.
- You can now create a binary distribution of Spark which depends only on a Java runtime for easier deployment on a cluster.
- The examples build has been isolated from the core build, substantially reducing the potential for dependency conflicts.
- The Spark Streaming Twitter API has been updated to use OAuth authentication instead of the deprecated username/password authentication in Spark 0.7.0.
Several new example jobs have been added, including PageRank implementations in Java, Scala and Python, examples for accessing HBase and Cassandra, and MLlib examples.
- This release includes various optimizations to PySpark and to the job scheduler.
更多內容詳見https://spark.incubator.apache.org/releases/spark-release-0-8-0.html
(全文完)
最後更新:2017-04-03 15:21:56