閱讀868 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《Spark 官方文檔》機器學習庫(MLlib)指南

機器學習庫(MLlib)指南

MLlib是Spark的機器學習(ML)庫。旨在簡化機器學習的工程實踐工作,並方便擴展到更大規模。MLlib由一些通用的學習算法和工具組成,包括分類、回歸、聚類、協同過濾、降維等,同時還包括底層的優化原語和高層的管道API。

MLllib目前分為兩個代碼包:

  • spark.mllib 包含基於RDD的原始算法API。
  • spark.ml 則提供了基於DataFrames 高層次的API,可以用來構建機器學習管道。

我們推薦您使用spark.ml,因為基於DataFrames的API更加的通用而且靈活。不過我們也會繼續支持spark.mllib包。用戶可以放心使用,spark.mllib還會持續地增加新的功能。不過開發者需要注意,如果新的算法能夠適用於機器學習管道的概念,就應該將其放到spark.ml包中,如:特征提取器和轉換器。

下麵的列表列出了兩個包的主要功能。

spark.mllib: 數據類型,算法以及工具

spark.ml: 機器學習管道高級API

雖然還有些降維技術在spark.ml中尚不可用,不過用戶可以將spark.mllib中的的相關實現和spark.ml中的算法無縫地結合起來。

依賴項

MLlib使用的線性代數代碼包是Breeze,而Breeze又依賴於 netlib-java 優化的數值處理。如果在運行時環境中這些原生庫不可用,你將會收到一條警告,而後spark會使用純JVM實現來替代之。

由於許可限製的原因,spark在默認情況下不會包含netlib-java的原生代理庫。如果需要配置netlib-java/Breeze使用其係統優化庫,你需要添加依賴項:com.github.fommil.netlib:all:1.1.2(或者在編譯時加上參數:-Pnetlib-lgpl),然後再看一看 netlib-java 相應的安裝文檔。

要使用MLlib的Python接口,你需要安裝NumPy 1.4以上的版本。

遷移指南

MLlib目前還在積極的開發當中。所以標記為 Experimental / DeveloperApi 的接口可能在未來發生變化,下麵的遷移指南說明了版本升級後的變化。

從1.5升級到1.6

從1.5到1.6,spark.mllib 和 spark.ml 包中並沒有重大的API變化,不過有一些行為不再支持或者發生變化。

已經廢棄:

  • SPARK-11358: spark.mllib.clustering.KMeans 的runs參數已經廢棄
  • SPARK-10592: spark.ml.classification.LogisticRegressionModel和spark.ml.regresion.LinearRegressionModel 中,weights字段改名為coefficients。這一變動有助於消除歧義,可以和輸入給算法的實例(行)權重(weights)區分開來。

行為有變:

  • SPARK-7770spark.mllib.tree.GradientBoostedTreesvalidationTol 的語義在1.6中有變。原先其代表誤差變化絕對值的一個閾值,而現在它類似於GradientDescent中的convergenceTol:對於較大的誤差,使用相對誤差(相對於上一次);而對於較小的誤差(<0.01),使用絕對誤差。
  • SPARK-11069: spark.ml.feature.RegexTokenizer:以前,在分詞之前不會講字符串轉小寫。現在的實現是,默認會將字符串轉小寫,不過有選項可以設為不轉。這中實現和Tokenizertransformer的行為相匹配。

Spark老版本

以前版本的遷移指南歸檔在這裏:on this page


  1. 要了解更多有關係統優化的好處和背景資料,可以看看Sam Halliday關於ScalaX的演講:High Performance Linear Algebra in Scala

 轉載自 並發編程網 - ifeve.com

最後更新:2017-05-19 14:33:22

  上一篇:go  Commons IO 官方文檔
  下一篇:go  什麼樣的雲數據庫架構選型才能做到安全,穩定又可靠?