閱讀704 返回首頁    go 阿裏雲 go 技術社區[雲棲]


阿裏雲E-MapReduce Spark 作業配置

1.進入阿裏雲 E-MapReduce 控製台作業列表

2.單擊該頁右上角的創建作業,進入創建作業頁麵。

3.填寫作業名稱。

4.選擇 Spark 作業類型,表示創建的作業是一個 Spark 作業。Spark 作業在 E-MapReduce 後台使用以下的方式提交:

spark-submit [options] --class [MainClass] xxx.jar args
5.在應用參數選項框中填寫提交該 Spark 作業需要的命令行參數。請注意,應用參數框中隻需要填寫“spark-submit”之後的參數即可。以下分別示例如何填寫創建 Spark 作業和 pyspark 作業的參數。

創建 Spark 作業

新建一個 Spark WordCount 作業。

作業名稱: Wordcount

類型:選擇 Spark

應用參數:

在命令行下完整的提交命令是:

spark-submit --master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32

在 E-MapReduce 作業的應用參數框中隻需要填寫:

--master yarn-client --driver-memory 7G --executor-memory 5G --executor-cores 1 --num-executors 32 --class com.aliyun.emr.checklist.benchmark.SparkWordCount ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar oss://emr/checklist/data/wc oss://emr/checklist/data/wc-counts 32

需要注意的是:作業 Jar 包保存在 OSS 中,引用這個 Jar 包的方式是ossref://emr/checklist/jars/emr-checklist_2.10-0.1.0.jar。您可以單擊選擇 OSS 路徑,從 OSS 中進行瀏覽和選擇,係統會自動補齊 OSS 上 Spark 腳本的絕對路徑。請務必將默認的“oss”協議切換成“ossref”協議。

創建 pyspark 作業

E-MapReduce 除了支持 Scala 或者 Java 類型作業外,還支持 python 類型 Spark 作業。以下新建一個 python 腳本的 Spark Kmeans 作業。

作業名稱:Python-Kmeans

類型:Spark

應用參數:

--master yarn-client --driver-memory 7g --num-executors 10 --executor-memory 5g --executor-cores 1  ossref://emr/checklist/python/kmeans.py oss://emr/checklist/data/kddb 5 32

支持 Python 腳本資源的引用,同樣使用“ossref”協議。

pyspark 目前不支持在線安裝 Python 工具包。

6選擇執行失敗後策略。

7.單擊確定,Spark 作業即定義完成。

最後更新:2017-09-01 01:02:50

  上一篇:go  阿裏雲E-MapReduce Spark SQL 作業配置
  下一篇:go  阿裏雲E-MapReduce Pig 作業配置