Spark环境配置与学习

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。本文主要介绍spark环境配置以及基础入门学习。

Spark环境配置

Spark需要java, scala环境的支持,因此环境配置分为三个部分:java, scala, spark

java 安装

Java环境可选择 Oracle 的 JDK,或是 OpenJDK。

sudo apt-get install openjdk-7-jre openjdk-7-jdk

JRE和JDK的区别
JRE(Java Runtime Environment,Java运行环境),是运行 Java 所需的环境。JDK(Java Development Kit,Java软件开发工具包)即包括 JRE,还包括开发 Java 程序所需的工具和类库。

安装好OpenJDK后,需要找到相应的安装路径,这个路径是用于配置 JAVA_HOME 环境变量的。执行如下命令:

dpkg -L openjdk-7-jdk | grep '/bin/javac'

该命令会输出一个路径,除去路径末尾的 “/bin/javac”,剩下的就是正确的路径了。如输出路径为/usr/lib/jvm/java-7-openjdk-amd64/bin/javac,则我们需要的路径为/usr/lib/jvm/java-7-openjdk-amd64。

设置Linux环境变量的方法和区别
首先是设置全局环境变量,对所有用户都会生效:
etc/profile: 此文件为系统的每个用户设置环境信息。当用户登录时,该文件被执行一次,并从 /etc/profile.d 目录的配置文件中搜集shell 的设置。一般用于设置所有用户使用的全局变量。
etc/bashrc: 当 bash shell 被打开时,该文件被读取。也就是说,每次新打开一个终端 shell,该文件就会被读取。

只对单个用户生效:
~/.bash_profile 或 ~/.profile: 只对单个用户生效,当用户登录时该文件仅执行一次。用户可使用该文件添加自己使用的 shell
变量信息。另外在不同的LINUX操作系统下,这个文件可能是不同的,可能是 ~/.bash_profile, ~/.bash_login 或
~/.profile 其中的一种或几种,如果存在几种的话,那么执行的顺序便是:~/.bash_profile、 ~/.bash_login、
~/.profile。比如 Ubuntu 系统一般是 ~/.profile 文件。 ~/.bashrc:
只对单个用户生效,当登录以及每次打开新的 shell 时,该文件被读取。

接着配置 JAVA_HOME 环境变量,我们在 etc/profile 中进行设置。

sudo vim /etc/profile

在文件最前面添加如下单独一行(注意 = 号前后不能有空格),将“JDK安装路径”改为上述命令得到的路径,并保存:

export JAVA_HOME=JDK安装路径

接着还需要让该环境变量生效,执行如下代码:

source /etc/profile    # 使变量设置生效

设置好后我们来检验一下是否设置正确:

echo $JAVA_HOME     # 检验变量值
java -version
$JAVA_HOME/bin/java -version  # 与直接执行 java -version 一样

如果设置正确的话,$JAVA_HOME/bin/java -version 会输出 java 的版本信息,且和 java -version 的输出结果一样。

scala安装

首先去官网下载我们需要的包 http://spark.apache.org/downloads.html 下载得到 scala-2.11.8.tgz文件
我们需要给spark一个安装目录:

sudo mkdir /usr/lib/scala

解压缩文件

sudo tar -zxvf scala-2.11.8.tgz -C /usr/lib/scala

最后打开/etc/profile,在最后添加配置

export SCALA_HOME=/usr/lib/scala/scala-2.11.8
export PATH=${SCALA_HOME}/bin:$PATH

执行代码使其生效。

source /etc/profile    # 使变量设置生效

执行scala查看是否配置成功。

Spark配置

下载spark文件

wget http://mirrors.hust.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-hadoop2.6.tgz

下载完成后,创建spark安装目录,并将文件解压到目录中。

sudo mkdir /usr/lib/spark
sudo tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz -C /usr/lib/spark

在/etc/profile中配置

export SPARK_HOME=/usr/lib/spark/spark-1.6.2-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH

保存文件,执行

source /etc/profile 

进入spark目录中,输入

./bin/spark-shell

如果出现

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.6.2
      /_/

Using Scala version 2.10.5 (OpenJDK Server VM, Java 1.7.0_121)
Type in expressions to have them evaluated.
Type :help for more information.
17/02/17 15:38:39 WARN Utils: Your hostname, leiline-virtual-machine resolves to a loopback address: 127.0.1.1; using 192.168.248.137 instead (on interface eth0)
17/02/17 15:38:39 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Spark context available as sc.

表示spark安装成功。

Spark入门学习

你可能感兴趣的:(数据挖掘)