Spark 安装(单机版)

Spark 安装(单机版)

  • 解压文件到指定目录
  • 修改配置文件
    • 重命名
    • 到/spark240/conf目录下
      • (1)saprk-env.sh
      • (2)slaves (配置单机的话,则不需要配置)
    • 配置环境变量
  • 运行Spark (已经安装了 scala)
      • 先启动 Hadoop
      • 启动 Spark
    • Spark 使用 Python 开发
    • 配置python环境
      • 安装Python
      • 启动PySpark的客户端

注意:安装spark之前要安装jdk,hadoop

解压文件到指定目录

[root@cai install]# tar -zxvf spark-2.4.0-bin-hadoop2.6.tgz -C ../bigdata/

修改配置文件

重命名

[root@cai bigdata]# mv spark-2.4.0-bin-hadoop2.6/ spark240

到/spark240/conf目录下

将 spark-env.sh.template 重命名为 spark-env.sh

(1)saprk-env.sh

[root@cai conf]# mv spark-env.sh.template spark-env.sh

添加内容如下:

export SCALA_HOME=/opt/bigdata/scala211
export JAVA_HOME=/opt/bigdata/jdk18
export HADOOP_HOME=/opt/bigdata/scala211/hadoop260
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=Master
SPARK_LOCAL_DIRS=/usr/local/bigdata/spark-2.4.3
SPARK_DRIVER_MEMORY=512M

(2)slaves (配置单机的话,则不需要配置)

将slaves.template重命名为slaves
修改为如下内容:

Slave01
Slave02

配置环境变量

[root@cai spark240]# vi /etc/profile

添加如下的配置

export SPARK_HOME=/opt/bigdata/spark240
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

运行Spark (已经安装了 scala)

先启动 Hadoop

[root@cai spark240]# start-all.sh 

启动 Spark

[root@cai spark240]# spark-shell

Spark 使用 Python 开发

spark既可以使用Scala作为开发语言,也可以使用python作为开发语言。

配置python环境

安装Python

系统已经默认安装了python,但是为了方便开发,推荐可以直接安装Anaconda,这里下载的是安装包是Anaconda3-2019.03-Linux-x86_64.sh,安装过程也很简单,直接执行$ bash Anaconda3-2019.03-Linux-x86_64.sh即可。

启动PySpark的客户端

执行命令:$ pyspark --master spark://master:7077

具体如下:
hadoop@Master:~$ pyspark --master spark://master:7077
Python 3.6.3 |Anaconda, Inc.| (default, Oct 13 2017, 12:02:49)
[GCC 7.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
19/06/08 08:12:50 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.3
      /_/

Using Python version 3.6.3 (default, Oct 13 2017 12:02:49)
SparkSession available as 'spark'.
>>>
>>>

你可能感兴趣的:(Spark)