Spark standalone 模式下的集群部署

版本!

一、准备工作

  • (1)安装 jdk (建议 jdk7 以上)

    [root@hadoop0 ~]# echo $JAVA_HOME
    /usr/local/jdk
    [root@hadoop0 ~]# java -version
    java version "1.8.0_73"
    Java(TM) SE Runtime Environment (build 1.8.0_73-b02)
    Java HotSpot(TM) Client VM (build 25.73-b02, mixed mode)
  • (2)安装 scala(2.10.4)

    [root@hadoop0 ~]# echo $SCALA_HOME
    /usr/local/scala
    [root@hadoop0 ~]# scala -version
    Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
  • (3)安装 hadoop 2.x(至少提供 hdfs)

    本文 hadoop 版本为 spark-1.3.0-bin-hadoop2.4.tgz

    [root@hadoop0 ~]# cd /usr/local/hadoop-2.6.0-cdh5.4.0
    [root@hadoop0 hadoop-2.6.0-cdh5.4.0]# ./sbin/hadoop-daemon.sh start namenode
    [root@hadoop0 hadoop-2.6.0-cdh5.4.0]# ./sbin/hadoop-daemon.sh start datanode

    在浏览器的地址栏输入:http://hadoop0:9000,进行验证

二、配置 Spark

本文采用的 spark 版本为:spark-1.6.1-bin-hadoop2.6.tgz。

下载、解压,就不必多说

修改配置文件

.template 文件后缀的含义即是,

  • (1)这是模板,这些配置只是大体的模板形式的给出配置,
  • (2)这些模板不可直接使用,需由客户重命名且指定属性值之后才可生效

(1)spark-env.sh.template

  • (1)重命名

    mv spark-env.sh.tempalte spark-env.sh
  • (2)增加三个可选的(最好选)的路径:

    JAVA_HOME=/usr/local/jdk
    SCALA_HOME=/usr/local/scala
    HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0-cdh5.4.0/etc/hadoop
  • (3)做如下设置

    SPARK_MASTER_IP=hadoop0
    SPARK_MASTER_PORT=7077
    SPARK_MASTER_WEBUI_PORT=8080
    SPARK_WORKER_CORES=1
    SPARK_WORKER_MEMORY=1000m
    SPARK_WORKER_PORT=7078
    SPARK_WORKER_WEBUI_PORT=8081
    SPARK_WORKER_INSTANCES=1

(2)slaves.template

  • (1)重命名

    mv slaves.template slaves
  • (2)添加本机主机名

    hadoop0

(3)spark-defaults.conf.template

  • (1)重命名

    mv spark-defaults.conf.template spark-defaults.conf
  • (2)增加一个条目

    spark.master spark://hadoop0:7077

三、验证

  • (1)jps 查看运行中的 java 进程

    [root@hadoop0 ~]# jps

    Spark standalone 模式下的集群部署_第1张图片

  • (2)Web UI 在浏览器端查看

    在浏览器地址栏输入:http://hadoop0:8080/

你可能感兴趣的:(Spark standalone 模式下的集群部署)