win7下spark+hadoop安装

安装

http://www.cnblogs.com/eczhou/p/5216918.html
1.1、jdk安装
安装oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为C:\Program Files\Java\jdk1.7.0_79,视自己安装路径而定。
同时在系统变量Path下添加C:\Program Files\Java\jdk1.7.0_79\binC:\Program Files\Java\jre7\bin

1.2安装python2.7

1.3 hadoop工具包安装

spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行,但是这里还是把hadoop相关库也配置好吧。
1.3.1 去下载hadoop 2.6编译好的包hadoop 2.6编译好的包,我下载的是hadoop-2.6.0.tar.gz,
1.3.2 解压下载的文件夹,将相关库添加到系统Path变量中:D:\hadoop-2.6.0\bin;同时新建HADOOP_HOME变量,变量值为:D:\hadoop-2.6.0

1.4spark安装

去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本,我下载的是spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,对应的hadoop版本是2.6

1.5复制pyspark

将spark目录下的pyspark文件夹(D:\spark-1.6.0-bin-hadoop2.6\python\pyspark)复制到python安装目录C:\Python27\Lib\site-packages里

运行pyspark,安装pycharm

在cmd命令行下运行pyspark,然后运行pip install py4j安装相关库


win7下spark+hadoop安装_第1张图片
pyspark

安装pycharm(解释器设置为python2.7)开始编程

你可能感兴趣的:(win7下spark+hadoop安装)