下面讲一下linux上安装spark,以 Standalone Mode 安装
1)首先安装JDK
下载JDK:jdk-7u79-linux-x64.tar.gz ,版本是1.7以上都行,解压 tar -zxvf jdk-7u79-linux-x64.tar.gz
然后配置 ~/.bashrc
增加
export JAVA_HOME=/cdh/jdk1.7.0_79
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH
source .bashrc
验证: java -version能正常运行则说明安装成功
2)安装scala
请看: http://daizj.iteye.com/blog/2227128
3) 安装spark
1)首先从网 http://spark.apache.org/downloads.html 上下载需要的版本,目前下载的是spark-1.4.0-bin-cdh4.tgz
(2)将spark-1.4.0-bin-cdh4.tgz移到根目录,并解压
tar -zxvf spark-1.4.0-bin-cdh4.tgz
(3)配置环境变量
SPARK_HOME=/spark-1.4.0-bin-cdh4
path=$path:$SPARK_HOME/bin
(4)修改配置文件
1)cd /spark-1.4.0-bin-cdh4/conf
2)mv spark-env.sh.template spark-env.sh
3)vi spark-env.sh
添加以下内容:
export SCALA_HOME=/scala-2.11.6
export JAVA_HOME=/cdh/jdk1.7.0_79
export SPARK_MASTER_IP=192.168.212.15
export SPARK_WORKER_MEMORY=1024m
export master=spark://192.168.212.15:7070
4)修改slaves文件
mv slaves.template slaves
vi slaves
添加一下内容:
slave1
slave2
(5) 将/spark-1.4.0-bin-cdh4目录复制到work节点
(6)启动spark
pwd
/spark-1.4.0-bin-cdh4/sbin
执行 ./start-all.sh 命令。
注意,hadoop也有start-all.sh脚本,因此必须进入具体目录执行脚本,启动界面如下:
(7)验证
1)在master节点上执行jps
30859 Jps
30172 Master
2)在slaves节点上执行jps
30302 Worker
30859 Jps
(7)验证安装情况
1)运行自带示例
启动spark sql
进入spark_home/bin/ 运行 ./spark-sql
2)查看集群环境
http://master:8080/
3)进入spark-shell
$spark-shell
4)查看jobs等信息
http://master:4040/jobs/