Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。本文主要介绍spark环境配置以及基础入门学习。
Spark需要java, scala环境的支持,因此环境配置分为三个部分:java, scala, spark
Java环境可选择 Oracle 的 JDK,或是 OpenJDK。
sudo apt-get install openjdk-7-jre openjdk-7-jdk
JRE和JDK的区别
JRE(Java Runtime Environment,Java运行环境),是运行 Java 所需的环境。JDK(Java Development Kit,Java软件开发工具包)即包括 JRE,还包括开发 Java 程序所需的工具和类库。
安装好OpenJDK后,需要找到相应的安装路径,这个路径是用于配置 JAVA_HOME 环境变量的。执行如下命令:
dpkg -L openjdk-7-jdk | grep '/bin/javac'
该命令会输出一个路径,除去路径末尾的 “/bin/javac”,剩下的就是正确的路径了。如输出路径为/usr/lib/jvm/java-7-openjdk-amd64/bin/javac,则我们需要的路径为/usr/lib/jvm/java-7-openjdk-amd64。
设置Linux环境变量的方法和区别
首先是设置全局环境变量,对所有用户都会生效:
etc/profile: 此文件为系统的每个用户设置环境信息。当用户登录时,该文件被执行一次,并从 /etc/profile.d 目录的配置文件中搜集shell 的设置。一般用于设置所有用户使用的全局变量。
etc/bashrc: 当 bash shell 被打开时,该文件被读取。也就是说,每次新打开一个终端 shell,该文件就会被读取。只对单个用户生效:
~/.bash_profile 或 ~/.profile: 只对单个用户生效,当用户登录时该文件仅执行一次。用户可使用该文件添加自己使用的 shell
变量信息。另外在不同的LINUX操作系统下,这个文件可能是不同的,可能是 ~/.bash_profile, ~/.bash_login 或
~/.profile 其中的一种或几种,如果存在几种的话,那么执行的顺序便是:~/.bash_profile、 ~/.bash_login、
~/.profile。比如 Ubuntu 系统一般是 ~/.profile 文件。 ~/.bashrc:
只对单个用户生效,当登录以及每次打开新的 shell 时,该文件被读取。
接着配置 JAVA_HOME 环境变量,我们在 etc/profile 中进行设置。
sudo vim /etc/profile
在文件最前面添加如下单独一行(注意 = 号前后不能有空格),将“JDK安装路径”改为上述命令得到的路径,并保存:
export JAVA_HOME=JDK安装路径
接着还需要让该环境变量生效,执行如下代码:
source /etc/profile # 使变量设置生效
设置好后我们来检验一下是否设置正确:
echo $JAVA_HOME # 检验变量值
java -version
$JAVA_HOME/bin/java -version # 与直接执行 java -version 一样
如果设置正确的话,$JAVA_HOME/bin/java -version 会输出 java 的版本信息,且和 java -version 的输出结果一样。
首先去官网下载我们需要的包 http://spark.apache.org/downloads.html 下载得到 scala-2.11.8.tgz文件
我们需要给spark一个安装目录:
sudo mkdir /usr/lib/scala
解压缩文件
sudo tar -zxvf scala-2.11.8.tgz -C /usr/lib/scala
最后打开/etc/profile,在最后添加配置
export SCALA_HOME=/usr/lib/scala/scala-2.11.8
export PATH=${SCALA_HOME}/bin:$PATH
执行代码使其生效。
source /etc/profile # 使变量设置生效
执行scala查看是否配置成功。
下载spark文件
wget http://mirrors.hust.edu.cn/apache/spark/spark-1.6.2/spark-1.6.2-bin-hadoop2.6.tgz
下载完成后,创建spark安装目录,并将文件解压到目录中。
sudo mkdir /usr/lib/spark
sudo tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz -C /usr/lib/spark
在/etc/profile中配置
export SPARK_HOME=/usr/lib/spark/spark-1.6.2-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
保存文件,执行
source /etc/profile
进入spark目录中,输入
./bin/spark-shell
如果出现
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.6.2
/_/
Using Scala version 2.10.5 (OpenJDK Server VM, Java 1.7.0_121)
Type in expressions to have them evaluated.
Type :help for more information.
17/02/17 15:38:39 WARN Utils: Your hostname, leiline-virtual-machine resolves to a loopback address: 127.0.1.1; using 192.168.248.137 instead (on interface eth0)
17/02/17 15:38:39 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Spark context available as sc.
表示spark安装成功。