windows下安装pyspark

1.安装JDK
官网下载Java,这里我下的是8u121-windows-x64版本
下载JDK
windows下安装pyspark_第1张图片
安装完设置环境变量,添加JAVA_HOME和CLASSPATH
windows下安装pyspark_第2张图片
并在Path中添加

%JAVA_HOME%\bin

配置完毕,打开cmd,执行

java -version
  1. Scala安装配置

Scala download 下载对应scala 版本 【注意:Scala 1.6.2版本只能使用Spark 2.10各个版本;Scala 2.10.6 可适配Spark1.3.0到1.6.2】
windows 下直接下载msi 直接运行 会自动写入到path
windows下安装pyspark_第3张图片
安装完毕,验证Scala

3.Hadoop安装配置

hadoop 2.6.4 download
下载hadoop解压之后
设置环境变量
添加 HADOOP_HOME 值为hadoop解压目录
添加path ;%HADOOP_HOME%\bin

下载2.6版本hadoop 会缺少winutils.exe
去 http://blog.csdn.net/u011513853/article/details/52865076 下载对应hadoop 版本的winutils.exe
下载完毕后 将 winutils.exe 复制到 %HADOOP_HOME%\bin 目录下
注意:2.7版本也适用于2.6
还要重点注意!!
需要修改 winutils.exe 访问权限
先进入 到%HADOOP_HOME%\bin 目录下

hadoop fs -chmod -R 777 /tmp

运行 spark-shell
windows下安装pyspark_第4张图片从图中可以看到,在直接输入spark-shell命令后,Spark开始启动,并且输出了一些日志信息,大多数都可以忽略,需要注意的是两句话:

Spark context available as sc.
SQL context available as sqlContext.

4.Spark安装配置

spark download 安装spark
windows下安装pyspark_第5张图片
安装的目录应该是要与spark bin的 同一层上
解压后
运行cmd
spark-shell
这时应该还没成功的,会有报错
请看下一步

5.安装python
我们使用anaconda管理工具,首先安装anaconda,默认使用自带的python。
安装成功之后
6.安装pycharm
7.配置pycharm

你可能感兴趣的:(pyspark)