Spark安装与配置

文章目录

  • Spark安装与配置
    • Standalone模式
      • 软件依赖与版本号
      • 节点分配
      • 安装Spark
        • 1. 下载Spark并上传到服务器后解压
        • 2. 修改配置文件
        • 3. 修改环境变量
        • 4. 拷贝到子节点
        • 5. 启动Spark
        • 6. 启动Spark Shell界面
      • 测试
    • Yarn模式
      • 修改配置文件
      • 重启Spark和Hadoop
      • 测试

Spark安装与配置

Standalone模式

构建一个由Master+Slave构成的Spark集群,Spark运行在集群中。

软件依赖与版本号

安装Hive的前提条件是已经部署了Hadoop和Scala。具体安装Hadoop的方法见前面发的文章Hadoop伪分布式安装,安装Scala的方法见前面发的文章Kafka安装与配置。部署软件版本号如下所示:

软件名称 版本号
Hadoop 2.9.2
Spark 2.4.4
Scala 2.12.6

节点分配

名称 ip hostname
主节点 192.168.153.128 master
子节点1 192.168.153.129 slave01
子节点2 192.168.153.130 slave02

安装Spark

1. 下载Spark并上传到服务器后解压

tar xzvf spark-2.4.4-bin-hadoop2.7.tgz
mv spark-2.4.4-bin-hadoop2.7 /usr/local/spark

2. 修改配置文件

配置文件路径在 /usr/local/spark/conf 目录下。

  1. spark-env.sh

    需要先将conf目录下 spark-env.sh.template 重命名为 spark-env.sh ,并添加如下内容

    export SCALA_HOME=/usr/local/scala
    export JAVA_HOME=/usr/local/java
    export HADOOP_HOME=/usr/local/hadoop
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    SPARK_MASTER_IP=master
    SPARK_LOCAL_DIRS=/usr/local/spark
    SPARK_DRIVER_MEMORY=512M
    
  2. slaves

    先将 slaves.template 重命名为 slaves ,然后添加如下内容

    slave01
    slave02
    

3. 修改环境变量

vi /etc/profile

然后添加如下内容:

export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

最后生效

source /etc/profile

4. 拷贝到子节点

scp -r /usr/local/spark/ root@slave01:/usr/local
scp -r /usr/local/spark/ root@slave02:/usr/local

5. 启动Spark

必须先启动hadoop,然后再启动Spark

cd /usr/local/spark/sbin
sh start-all.sh
sh start-history-server.sh

6. 启动Spark Shell界面

spark-shell --master spark://master:7077

测试

> spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://master:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
/usr/local/spark/examples/jars/spark-examples_2.11-2.4.4.jar \
100

Yarn模式

Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点

  • yarn-client :Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出

  • yarn-cluster :程序运行在由RM(ResourceManager)启动的AP(APPMaster)适用于生产环境。

基于Standalone模式,继续修改配置文件。

修改配置文件

  1. yarn-site.xml

    cd /usr/local/hadoop/etc/hadoop
    vi yarn-site.xml
    

    添加如下内容:

    
    
    	yarn.nodemanager.pmem-check-enabled
    	false
    
    
    
    	yarn.nodemanager.vmem-check-enabled
    	false
    
    
  2. spark-env.sh

    cd /usr/local/spark/conf
    vi spark-env.sh
    

    添加如下内容:

    YARN_CONF_DIR=/usr/local/hadoop/etc/hadoop
    
  3. 将修改的配置文件同步到集群其他服务器上。

重启Spark和Hadoop

cd /usr/local/spark/sbin/
sh stop-all.sh

cd /usr/local/hadoop/sbin/
sh stop-dfs.sh
sh stop-yarn.sh

sh start-dfs.sh
sh start-yarn.sh

cd /usr/local/spark/sbin/
sh start-all.sh

测试

> spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
/usr/local/spark/examples/jars/spark-examples_2.11-2.4.4.jar \
100

你可能感兴趣的:(BigData,大数据,spark)