linux下Spark安装与环境配置

    Hadoop测试:

    按照上一篇文章安装完Hadoop集群之后,启动hdfs文件系统及yarn资源管理器(也可通过start-dfs.sh和start-yarn.sh完成):

start-all.sh

之后通过jps查看是否成功:

jps

    成功之后如下图:

linux下Spark安装与环境配置_第1张图片

    点击链接https://www.scala-lang.org/download/2.12.10.html,下载对应版本scala(本文选择scala 2.12.10):

linux下Spark安装与环境配置_第2张图片

    下载好后解压到:/usr/local/

sudo tar zxvf ~/Downloads/scala-2.12.10.tgz -C /usr/local/

    删除安装包:

rm ~/Downloads/scala-2.12.10.tgz

    进入到减压目录并重命名:

cd /usr/local/sudo mv scala-2.12.10 scal

    配置环境变量:

sudo vim /etc/profile

 

linux下Spark安装与环境配置_第3张图片

    执行source命令并测试:

source /etc/profilescala -version

    spark安装:

    点击链接 http://spark.apache.org/downloads.html 进行下载(本文选择2.4.4版本):

linux下Spark安装与环境配置_第4张图片

    下载好后解压至/usr/local/:

sudo tar zxvf ~/Downloads/spark-2.4.4-bin-hadoop2.7.tgz  -C /usr/local

    删除安装包:

rm spark-2.4.4-bin-hadoop2.7.tgz 

    进入到解压目录并重命名:

cd /usr/local/sudo mv spark-2.4.4-bin-hadoop2.7 spark

    配置环境:

sudo vim /etc/profile

linux下Spark安装与环境配置_第5张图片

    执行source更新命令:

source /etc/profile

    配置spark-env.sh:

    进入到配置目录并打开spark-env.sh文件:

cd spark/confcp spark-env.sh.template spark-env.shvim spark-env.sh

    添加以下内容:

export JAVA_HOME=/usr/local/java/jdk1.8.0_241export HADOOP_HOME=/usr/local/hadoopexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoopexport SCALA_HOME=/usr/local/scalaexport SPARK_HOME=/usr/local/sparkexport SPARK_MASTER_IP=127.0.0.1export SPARK_MASTER_PORT=7077export SPARK_MASTER_WEBUI_PORT=8099export SPARK_WORKER_CORES=3export SPARK_WORKER_INSTANCES=1export SPARK_WORKER_MEMORY=5Gexport SPARK_WORKER_WEBUI_PORT=8081export SPARK_EXECUTOR_CORES=1export SPARK_EXECUTOR_MEMORY=1Gexport LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

    配置slaves:

cp slaves.template  slavesvim slaves

    注:我们会发现slaves文件里为localhost即本机地址,当前为伪分布式,因此不用修改

    启动sbin目录下的start-master.sh以及start-slaves.sh(前提是hadoop已启动):

cd /usr/local/spark/./sbin/start-master.sh./sbin/start-slaves.sh

    通过jps命令会发现多出worker一项    

linux下Spark安装与环境配置_第6张图片

    通过spark的web界面 http://127.0.0.1:8099/ 可以查看spark集群当前概况:

 

linux下Spark安装与环境配置_第7张图片

 

    启动bin目录下的spark-shell:

./bin/spark-shell

    即会出现spark scala的命令行执行环境:

linux下Spark安装与环境配置_第8张图片

    同时我们还可通过spark-shell的web管理界面进行任务可视化监控:

linux下Spark安装与环境配置_第9张图片

    同时,也为了方便可以修改Bash环境变量配置:

vim /etc/bash.bashrc

    添加相应环境变量:

export SPARK_HOME=/usr/local/sparkexport PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH

    执行source更新命令:

source /etc/bash.bashrc

    至此linux环境下Hadoop与Spark安装结束,下回将对这些框架的使用做进一步的介绍。

你可能感兴趣的:(教程,hadoop,spark,linux)