416 阿里云技术社区[云栖]

ROS一键部署 Spark 分布式集群

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，可以完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等，而在 Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。本文主要目的是为大家提供一种非常简单的方法，在阿里云上部署Spark集群。
通过<阿里云ROS资源编排服务>，将VPC、NAT Gateway、ECS创建，Hadoop和Spark部署过程自动化，使大家能够非常方便地部署一个Spark集群。本文创建的Spark集群包含三个节点：master.hadoop，slave1.hadoop，slave2.hadoop。

一键部署Spark集群>>
screenshot

注意：

必须确保可以正确下载Jdk，Hadoop，Scala和Spark安装包，我们可以选择类似如下的URL：
利用该模板创建时，只能选择CentOS系统；
为了防止Timeout 失败，可以设置为120分钟；
我们选择的数据中心在上海/北京。

Spark的依赖环境比较多，一般安装Spark可分为四步：安装配置Hadoop集群，安装配置Scala，安装配置Spark包和启动测试集群。

安装Hadoop比较复杂，我们在上一篇博客《阿里云一键部署 Hadoop 分布式集群》中已经做过详细介绍，这里不再赘述。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架，Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

    "aria2c $ScalaUrl \n",
    "mkdir -p $SCALA_HOME \ntar zxvf scala-*.tgz -C $SCALA_HOME \ncd $SCALA_HOME \nmv scala-*.*/* ./ \nrmdir scala-*.* \n",
    "echo >> /etc/profile \n",
    "echo export SCALA_HOME=$SCALA_HOME >> /etc/profile \n",
    "echo export PATH=$PATH:$SCALA_HOME/bin >> /etc/profile \n",
    "ssh root@$ipaddr_slave1 \"mkdir -p $SCALA_HOME; mkdir -p $SPARK_HOME; exit\" \n",
    "ssh root@$ipaddr_slave2 \"mkdir -p $SCALA_HOME; mkdir -p $SPARK_HOME; exit\" \n",
    "scp -r $SCALA_HOME/*  root@$ipaddr_slave1:$SCALA_HOME \n",
    "scp -r $SCALA_HOME/*  root@$ipaddr_slave2:$SCALA_HOME \n",

Master上安装Spark，并将配置正确后的Spark Home目录远程复制到Slave主机上，并设置环境变量。

    "aria2c $SparkUrl \n",
    "mkdir -p $SPARK_HOME \ntar zxvf spark-*hadoop*.tgz -C $SPARK_HOME \ncd $SPARK_HOME \nmv spark-*hadoop*/* ./ \nrmdir spark-*hadoop* \n",
    "echo >> /etc/profile \n",
    "echo export SPARK_HOME=$SPARK_HOME >> /etc/profile \n",
    "echo export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin >> /etc/profile \n",
    "source /etc/profile \n",
    " \n",
    "cp $SPARK_HOME/conf/slaves.template $SPARK_HOME/conf/slaves \n",
    "echo $ipaddr_slave1 > $SPARK_HOME/conf/slaves \n",
    "echo $ipaddr_slave2 >> $SPARK_HOME/conf/slaves \n",
    "cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh \n",
    "echo export SCALA_HOME=$SCALA_HOME > $SPARK_HOME/conf/spark-env.sh \n",
    "echo export JAVA_HOME=$JAVA_HOME   >> $SPARK_HOME/conf/spark-env.sh \n",
    "scp -r $SPARK_HOME/*  root@$ipaddr_slave1:$SPARK_HOME \n",
    "scp -r $SPARK_HOME/*  root@最后更新：2017-04-17 16:30:39
  上一篇： C语言从零开始（一）
  下一篇： 开源大数据周刊-第48期
相关内容
 GitHub Flavored Markdown viewer plugin for Eclipse
 maven学习七之用户密码修改和添加用户
  Javascript 中的神器——Promise 
  SpringCloud--分布式配置中心(Spring Cloud Config) 
 HierarchicalStateMachine(HandlerStateMachine)分析
  Installation and Operation Guide for BigBench on MaxCompute Benchmarking Suite
 用Mixer API函数调节控制面板的音频设置
 增强AW_Blog插件之后台文章编辑新增一图片字段
  数据安全不容忽视 魔高一尺道高一丈 
 未能创建类型“Genersoft.ZJGL_XD.XDXTXY.XDGLPUBSrv”。
热门内容
 PostgreSQL 路径规划插件 pgruoting 介绍
 人生不过如此
  《STM32库开发实战指南：基于STM32F4》----导读
  解密区块链：从基础概念到技术实现的进阶攻略 
 ZED Board从入门到精通（三）：从传统ARM开发到PS开发的转变
 [图文]历届奥斯卡影帝(上)
  扎克伯格发6千字长文,谈Facebook未来愿景和世界该有的样子
 VS 添加jQuery智能提示
 python3学习
  突破吞吐限制，多NAS性能聚合方案，数据上传及读写
最新内容
  驻云Gartner联合发布人工智能时代的MSP白皮书
  云端安全之三：最佳实践
  突破吞吐限制，多NAS性能聚合方案，数据上传及读写
  如何同步TableStore数据到OSS
  百亿级全网舆情分析系统存储设计
  在ECS中访问各类阿里云云资源的正确姿势 
  不外传的seo计划教程方案 
  网站有收录没排名的原因与解决办法 
  燃！阿里的技术小哥们又又又拿冠军了！
  如何将个性化需求变成大数据解决方案

ROS一键部署 Spark 分布式集群

上一篇： C语言从零开始（一）

下一篇： 开源大数据周刊-第48期

相关内容

热门内容

最新内容

下一篇：开源大数据周刊-第48期