spark集群在windows下搭建

我用三台windows电脑,主机名 和 ip对应如下:
(右键我的计算机 属性 修改计算机名分别为:win-master,win-salver1,win-salver2)
win-master 192.168.0.1
win-salve1 192.168.0.2
win-salve2 192.168.0.3
每台电脑安装好对应的软件,建议安装目录保持一致
1.下载java:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
我下载的是jdk8,根据自己电脑系统选择对应的版本,需要登录后下载。安装好之后,设置系统环境变量JAVA_HOME指向java安装目录,比如我的是D:/spark/Java/jdk1.8.0_231,同时把%JAVA_HOME%\bin目录添加到系统变量path里
2.下载scala:https://www.scala-lang.org/download/2.12.10.html 选择msi格式,然后安装
3.下载spark:http://spark.apache.org/downloads.html
我选择的spark版本为2.4.4 pre-build for apache hadoop 2.7
安装spark 然后设置环境变量SPARK_HOME=d:/spark (我的spark安装目录) ,同样把%SPARK_HOME%\bin目录添加到系统变量path里
4.下载Hadoop:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/ 下载后直接加压就可以,然后设置系统环境变量HADOOP_HOME=你的hadoop目录,同样把%HADOOP_HOME%\bin目录添加到系统变量path里。下载winutils.exe 把它复制到hadoop\bin目录下
5.安装pyspark:将spark目录下python子目录里的pyspark文件夹复制到python安装目录\Python35\Lib\site-packages里
软件安装好后,启动spark就可以了,linux下有自动脚本start-all.sh可以直接启动,在windows下不能用,所以只能手动启动(D:/hadoop2.7,D:/spark是我的hadoop和spark目录)。
先启动master,打开CMD输入启动命令:java -cp “D:/hadoop2.7/conf;D:/spark/jars/" -Xmx1g org.apache.spark.deploy.master.Master --host win-master --port 7077 --webui-port 8080
然后启动master机器的worker,重新打开一个CMD输入:java -cp "D:/hadoop2.7/conf/;D:/spark/jars/
” -Xmx1g org.apache.spark.deploy.worker.Worker spark://win-master:7077
然后启动win-salve1和win-salve2的worker命令和master电脑的一样:java -cp “D:/hadoop2.7/conf/;D:/spark/jars/*” -Xmx1g org.apache.spark.deploy.worker.Worker spark://win-master:7077

集群启动起来后,就可以用spark-submit了,在master电脑新开一个CMD,运行d:/spark/bin/spark-submit --master spark://win-master:7077 test.py
然后可以在master电脑中打开浏览器访问localhost:8080 查看状态

你可能感兴趣的:(spark)