linux下spark安装安装及环境配置

spark单机安装及环境配置

安装前准备:

安装spark之前必须先下载jdk,并完成jdk的环境配置,hadoop可以选择安装,不安装hadoop,spark也可以正常运行

1.首先准备scala安装包,可以再官网上下载

scala官网:https://www.scala-lang.org/download/
安装scala的版本:scala-intellij-bin-2018.2.1

2.将scala通过xftp传入linux系统下,存放到/opt目录下
linux下spark安装安装及环境配置_第1张图片
3.将spark压缩包解压到指定的soft目录下,并改名为spark234

 tar -zxf spark-2.3.4-bin-hadoop2.6.tgz
 
 mv spark-2.3.4-bin-hadoop2.6 soft/spark234

4.在spark234目录的conf目录下编辑slaves文件

cd conf

cp slaves.template slaves

vi slaves

linux下spark安装安装及环境配置_第2张图片
因为,安装的是spark单机模式,所以slaves文件内默认是localhost本地主机,如果是分布式多节点的话,此处需添加多节点的IP地址或节点名。

5.拷贝编辑spark-env.sh文件

cp spark-env.sh template spark-env.sh

vi spark-env.sh

在该文件中加入如下配置:

export SPARK_MASTER_HOST=192.168.181.136 //主节点IP
export SPARK_MASTER_PORT=7077 //任务提交端口
export SPARK_WORKER_CORES=2 //每个worker使用2核
export SPARK_WORKER_MEMORY=3g //每个worker使用3G内存
export SPARK_MASTER_WEBUI_PORT=8888//修改spark监视窗口,默认8080

6.修改sbin目录下的spark-config.sh文件

cd ../sbin   //切换至sbin目录下

vi spark-config.sh

修改jdk的路径:

 export JAVA_HOME=/opt/soft/jdk180

7.启动spark
首先,进入sbin目录,通过./start-all.sh启动
linux下spark安装安装及环境配置_第3张图片

然后,切换至bin目录下执行./spark-shell
linux下spark安装安装及环境配置_第4张图片
8.最后去网页ping:主机的IP地址:4040

linux下spark安装安装及环境配置_第5张图片
结果如上图,spark启动成功!!

你可能感兴趣的:(分布式,大数据,linux,spark,hadoop)