windows7下安装pyspark步骤及可能遇到的问题。

windows7下安装pyspark步骤及可能遇到的问题

    • 具体安装步骤
      • 一、安装JDK
      • 二、安装anaconda及pycharm
      • 三、安装scala
      • 四、安装Hadoop
      • 五、安装spark
      • 六、运行pyspark可能遇到的问题

本文安装的各软件版本:jdk:1.8;spark:2.3.1;Hadoop:2.7.3

具体安装步骤

一、安装JDK

jdk官网链接
或者下载链接jdk1.8
运行spark时,需要的JDK的安装目录不能带空格,要不然会报错。之前我的jdk安装目录是D:\Program Files\java**,运行spark运行报错“spark 不是内部命令”。

  1. 电脑第一次安装JDK,点击安装文件,选择需要安装的目录,点击下一步即可。
  2. 配置环境变量:
    (1) 点击计算机-属性-高级系统设置-环境变量。在系统变量下新建,变量名JAVA_HOME,变量值,jdk路径(我的是D:\InstallFiles\JDK),保存。
    (2) 新建,变量名CLASSPATH,变量值, .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
    (3) 打开Path变量,在变量值最前加入 %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
    (4) 执行cmd,输入javacjava -version 查看是否安装成功。
  3. 如果电脑需要卸载JDK重新安装。先进入控制面板,卸载JDK,然后打开环境变量path查看是否存在类似C:\Program Files (x86)\Common Files\Oracle\Java\javapath这句,目前不清楚这个目录是干嘛的,进入这个目录,删除java相关的三个.exe 文件(不删除,重新安装JDK后,JDK还是之前的目录)。然后重新安装,重新安装后,执行java-verbose,查看命令最后一行,是否是新安装的目录。

二、安装anaconda及pycharm

anaconda下载官网

  1. 下载需要的anaconda版本,我安装的是3.6的。下载后执行安装即可。
  2. 环境配置可以在第一步选择配置,也可以自己手动配置。
  3. pycharm安装这里不讲,网上很多。下载安装即可。

三、安装scala

scala下载地址
或者地址

  1. 下载完成后,点击执行安装即可, 环境变量自动配置。scala安装目录不可以存在空格
  2. 执行cmd,执行scala。命令成功即安装成功

四、安装Hadoop

hadoop下载官网
或者下载免安装
windows下安装hadoop还需要一个插件下载

  1. 我这里下载的是第二个免安装文件,下载后解压,然后放到需要安装的目录下。
  2. 插件压缩包解压, 将其中的文件复制替换掉hadoop目录下对应的文件。
  3. 进入环境变量配置,新建HADOOP_HOME=‘安装的目录’,打开path,添加%HADOOP_HOME%\bin;

五、安装spark

spark下载官网
或者下载免安装

  1. 我这里下载的是第二个免安装文件,下载后解压,然后放到需要安装的目录下。
  2. 进入环境变量配置,新建SPARK_HOME=‘安装的目录’,打开path,添加%SPARK_HOME%\bin;
  3. 执行cmd,执行命令spark -shell出现如下表示安装成功。
  4. 将spark目录下的python文件复制到anaconda下的lib\site-packages
  5. 进入pycharm即可使用pyspark

windows7下安装pyspark步骤及可能遇到的问题。_第1张图片

六、运行pyspark可能遇到的问题

  1. windows7下安装pyspark步骤及可能遇到的问题。_第2张图片
    可能原因是你安装的pyspark跟安装的spark版本不一致。我安装的spark版本是2.3.1,那么对应的pyspark安装也需要2.3.1版本。
  2. windows7下安装pyspark步骤及可能遇到的问题。_第3张图片
    可能原因:发现错误的原因是spark运行时无法找到python解释器
    解决方法,在程序右上角点击Edit Configurations,
    在environment variable中插入环境变量即可解决问题
    windows7下安装pyspark步骤及可能遇到的问题。_第4张图片
    windows7下安装pyspark步骤及可能遇到的问题。_第5张图片

你可能感兴趣的:(数据库,pyspark)