Python & Spark学习笔记系列 【第一章】环境搭建 pyspark安装

Python语言怎么安装这里就不写了,网上有好多,IDEA安装是我按的Python插件如下图:

Python & Spark学习笔记系列 【第一章】环境搭建 pyspark安装_第1张图片

安装Python语言环境和插件以后,还要安装pyspark类库,因为默认Python是不带这些类库的。

这里安装遇到一个小坑,简单说下。

如果网络没问题的话可以直接cmd进入命令行,

时候输入命令pip install pyspark,就可以安装了。但是默认是pyspark的latest版本,我写帖子的时候最后一版是2.4.0但是我实际环境用的是Spark2.3.1。而且还有个严重问题,我的公司电脑有网络限制,安装命令无法现在安装包。

所以我用的办法是先把安装包下来之后本地安装。

首先进入python官网: https://www.python.org/

进入最上边的Pypi

Python & Spark学习笔记系列 【第一章】环境搭建 pyspark安装_第2张图片

之后搜索pyspark

出来列表里第一个就是最后一个版本2.4.0,直接点进去

之后点击release history,进可以进去选版本了。这里我下载的的是2.3.1版,选择好版本之后,点击download files,下载pyspark-2.3.1.tar.gz

Python & Spark学习笔记系列 【第一章】环境搭建 pyspark安装_第3张图片

下载之后,运行CMD命令。

执行命令:pip install C:\Downloads\pyspark-2.3.1.tar.gz(安装包放到哪写哪)

安装过程如下图,最后提示安装成功:

Python & Spark学习笔记系列 【第一章】环境搭建 pyspark安装_第4张图片

之后进入IDEA创建第一个Python_Spark程序.

Python & Spark学习笔记系列 【第一章】环境搭建 pyspark安装_第5张图片

引入spark相关依赖,如果不安装pyspark,下边引用语句会直接报错.

from pyspark import SparkContext, SparkConf
import os

os.environ['JAVA_HOME']='D:\Java\jdk1.8.0_92'
conf = SparkConf().setMaster("local").setAppName("test_app1")
sc = SparkContext(conf=conf)

注意这里我运行的时候报了一个下边的错,这个错误困扰了我一天,网上找就是让加上我上边的那两句话设置JAVA_HOME的那个,我设置之后一直不好使。

raise Exception("Java gateway process exited before sending its port number")
Exception: Java gateway process exited before sending its port number

最后终于发现了问题,我的JDK路径里有空格:C:\Program Files (x86)\Java,

重要事情说3遍

我的JDK路径里有空格,我的JDK路径里有空格,我的JDK路径里有空格。

后来我改成上边代码里的JDK路径,就好使了。问题解决,明天继续学习。

 

 

你可能感兴趣的:(Spark)