Spark本身是用Scala语言开发的,所以首先需要安装Scala。首先在master中安装。我们用的spark版本为2.4,需要配套使用的scala版本为2.11
进入Scala下载页面,下拉,找到tgz包
右击,复制链接如下
https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
在master的命令行中输入:
wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
输入命令:tar xvf scala-2.11.12.tgz
将scala迁移到/usr/local目录下
输入命令:sudo mv scala-2.11.12 /usr/local/scala
输入命令:sudo gedit ~/.bashrc
加入如下的配置
使设置生效,输入命令:source ~/.bashrc
可以启动scala确认安装成功。
输入命令:scala
输入命令: :q 退出
进入下载页面,选择spark2.4,hadoop2.7,如下图所示。
点击上图中的链接,进入如下页面。右击,复制下图红框内链接。
复制结果如下:http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
输入命令:wget http://mirrors.shu.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
输入命令:tar zxf spark-2.4.0-bin-hadoop2.7.tgz
输入命令:sudo mv spark-2.4.0-bin-hadoop2.7 /usr/local/spark/
输入命令:sudo gedit ~/.bashrc
添加如下配置
使配置生效,输入命令:source ~/.bashrc
使用PySpark需要使用python
输入命令:sudo apt-get install python 安装python2
输入命令:pyspark
复制模板文件,输入命令:cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
编辑 spark-env.sh,输入命令:sudo gedit /usr/local/spark/conf/spark-env.sh
添加如下信息
连接data1,命令:ssh data1
创建spark目录,命令:sudo mkdir /usr/local/spark
更改所有者,命令:sudo chown hduser:hduser /usr/local/spark
为data1安装python
注销:exit
将master的spark复制到data1:sudo scp -r /usr/local/spark hduser@data1:/usr/local
用相同的方法处理data2、data3
命令:sudo gedit /usr/local/spark/conf/slaves
命令:/usr/local/spark/sbin/start-all.sh
命令:pyspark --master spark://master:7077 --numexecutors 1 --total-executor-cores 3 --executor-memory 512m
后边3个参数分别定义了:每个节点上的执行器个数、执行器使用的内核数、每个执行器使用的内存数量
进入网址:http://master:8080/
命令:/usr/local/spark/sbin/stop-all.sh