ubuntu搭建Spark伪分布环境

Ubuntu搭建Spark伪分布环境

文章目录

  • 1.前提条件
  • 2.下载安装包
  • 3.用Winscp工具上传安装包
  • 4.安装Spark
  • 5.安装Scala
  • 6.启动Spark集群
  • 7.总结

1.前提条件

  1. ubuntu系统
  2. JDK1.8以上(Ubuntu环境下)

2.下载安装包

  1. 到spark官网下载,尽量下载最新版本。
  2. 下载scala安装包,网址:https://www.scala-lang.org/

3.用Winscp工具上传安装包

  1. 打开Winscp连接ubuntu
    ubuntu搭建Spark伪分布环境_第1张图片
  2. 在左边找到安装包直接拖到右边
    ubuntu搭建Spark伪分布环境_第2张图片

4.安装Spark

  1. 解压Spark安装包
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz 

解压后用ls命令查看是否解压成功
ubuntu搭建Spark伪分布环境_第3张图片

  1. 建立软连接(因为原文件夹名字太长了,后面配置麻烦,可以不用做)
ln -s spark-2.3.2-bin-hadoop2.7 spark 

查看结果就发现新增了spark文件夹了
在这里插入图片描述

  1. 配置环境变量
nano ~/.bashrc

注意:这里的nano是一个文件编辑工具,相同的工具还有vim, vi等
在~/.bashrc文件后面添加以下内容

export SPARK_HOME=~/soft/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

SPARK_HOME的路径是自己存放spark解压后的文件路径
使环境变量生效

source ~/.bashrc
  1. 配置spark
    进入Spark conf目录,复制并重命名spark-env.sh.template、log4j.properties.template、slaves.template
cd conf/
cp log4j.properties.template log4j.properties
spark-env.sh.template spark-env.sh
cp slaves.template slaves

修改spark-env.sh

export JAVA_HOME=~/soft/jdk      
#添加Java位置,注意按实际修改
export SCALA_HOME=~/soft/scala   
#添加Scala位置,注意按实际修改
export SPARK_MASTER_IP=node1                
#设置主节点ip地址或主机名,注意按实际修改
export SPARK_WORKER_MEMORY=1024m            
#设置节点内存大小,此处为1024m。
export SPARK_WORKER_CORES=2                 
#设置节点参与计算的核心数
export SPARK_WORKER_INSTANCES=1             
#设置节点实例数

注意:前三行要按照实际情况修改,~/soft代表的是home目录下的soft
第三行应该填写自己的IP,如果IP与主机名称已经映射过,也可以填写主机名称,
填主机名当网络出现问题,重置网络后只需要改ip与主机的映射,比较方便。
第二行scala我们先加上去,免得一会儿还要重新打开麻烦,你也可以先装scala的,我这里放到了后面而已。

修改slaves,内容如下

node1

注意:IP与主机名已经映射过,可以填写node1,否者需要填写虚拟机的IP地址

5.安装Scala

  1. 解压Scala安装包
tar -zvxf scala-2.13.1.tgz
  1. 建立软连接
soft$ ln -s scala-2.13.1 scala
  1. 配置环境变量
nano ~/.bashrc
export SCALA_HOME=~/soft/scala
export PATH=$PATH:$SCALA_HOME/bin

SCALA_HOME的路径是自己存放scala解压后的文件路径
使环境变量生效

source ~/.bashrc
  1. 测试scala
    查看Scala版本
scala -version

在这里插入图片描述
进入Scala

scala

ubuntu搭建Spark伪分布环境_第4张图片

6.启动Spark集群

  1. 进入到Spark按照目录下,执行sbin/目录下的启动命令
cd ~/soft/spark
sbin/start-all.sh

ubuntu搭建Spark伪分布环境_第5张图片

  1. jps查看Spark进程,正确启动会有Master和Worker进程
    ubuntu搭建Spark伪分布环境_第6张图片
  2. Web访问
    到浏览器地址栏输入ip:8080
    ubuntu搭建Spark伪分布环境_第7张图片
  3. 关闭Spark集群
    进入到Spark按照目录下,执行sbin/目录下的关闭命令
cd ~/soft/spark
sbin/stop-all.sh

7.总结

在ubuntu下安装软件的步骤可以分为:

  1. 上传包
  2. 解压包
  3. 建立软连接(可要可不要)
  4. 配置环境变量
  5. 最后验证是否安装成功

你可能感兴趣的:(spark,apache,spark,ubuntu)