在Mac OSX上配置PySpark

在Mac OSX上配置PySpark

2016-04-20 22:03:28

安装环境

系统:OSX - 10.11.1 (15B42)

内核版本:Darwin Kernel Version 15.0.0

Python版本:2.7.10

GCC版本:4.2.1

引言

上一篇文章我已经在Linux虚拟机里面配置了PySpark了,这里按照之前的步骤应该就可以了。但是OSX上面有一些细微配置不太一样。

配置过程

1.下载预构建好的Spark压缩包

进入Spark官网下载页面下载你需要的安装包,这里我选择预构建好的、现在最新的压缩包-Download Spark: spark-1.6.1-bin-hadoop2.6.tgz,你也可以下载源码包自己在自己的环境下编译一遍。

2.解压压缩包

将这个压缩包解压并移动到你想要存放应用程序的目录下,你可以把它解压到比如说/Applications/下,这个文件夹一般是保存应用程序的文件夹。
这里和Linux不太一样,OSX的机制我也没太搞明白,就算我使用root用户仍然不能在/usr//bin/这些文件夹创建相应的目录,说是权限不够。我查了查网上说的原因,说是没有开启读写,但是我尝试了一下还是没搞懂,于是我决定把它放在/Applications/中。

解压到当前目录下的命令:

tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz

把解压出来的文件移动到目标目录/Applications/的命令:
mv spark-1.6.1-bin-hadoop2.6/ /Applications/spark-1.6.1

3.添加环境变量

打开环境变量配置文件

nano ~/.bash_profile

在最后面添加

PATH="/Applications/spark-1.6.1/bin:${PATH}"
export PATH

查看环境变量:

echo $echo

4.测试配置情况

输入pyspark看看安装情况,出现了大大的Spark version 1.6.1,表示Spark配置成功啦!

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.6.1
      /_/

Using Python version 2.7.10 (default, Aug 22 2015 20:33:39)
SparkContext available as sc, HiveContext available as sqlContext.
>>> 

参考文档

  1. Spark入门(Python版)这篇文章对我的帮助很大,基本上的流程都是按照这篇文章来的,里面还有一些对于Spark的介绍。

  2. Mac 启动加载文件位置(可设置环境变量)

你可能感兴趣的:(Data,Mining,python,mac,osx,Spark)