windows10 下Spark+Hadoop+hive+pyspark安装

一、准备工作(之前踩过的坑)

1、需要安装java的jdk,scala,spark,hadoop
2、jdk的版本一定要是1.8的,1.9的会报错。
3、各个文件的安装路径中不能存在空格,所以jdk的安装千万不要默认路径
4、安装spark前一定要安装scala,否则运行spark-shell时会报错
5、在windows下安装需要类似于破解的东西才能打开namenode,找了半天才找到的方案,参考文末的博客。
6、启动hive前必须先启动hadoop,要不然没法连接到9000端口

二、安装

1、java的 jdk

a) 使用版本:1.8版本
敲黑板:路径千万不要在默认路径Program File下,路径文件中中间不能存在空格(踩的第一个坑)

b) 配置java环境变量
变量名JAVA_HOME,变量值D:\system\Java\jdk1.8.0_65,然后到PATH中配置路径%JAVA_HOME\bin
c) 测试:在命令行中测试 java -version

2、安装scala

a)使用版本:版本scala-2.11.8 下载地址

一定要安装scala,我之前是想用pyspark,所以没有安装scala,最后测试spark-shell时老是没有系统文件(这是踩的第二个坑)

b)配置scala环境变量:
变量名SCALA_HOME,变量值D:\system\scala-2.11.8,然后到PATH中配置路径%SCALA_HOME\bin

3、安装spark:

a) 使用版本:spark-2.4.3-bin-hadoop2.7.tgz
spark下载地址

b)配置环境变量

变量名SPARK_HOME,变量值D:\system\spark-2.4.3-bin-hadoop2.7,然后到PATH中配置路径%SPARK_HOME\bin

c) 测试:spark-shell

4、安装hadoop

a)根据spark和winutils的版本来选择hadoop版本号

  • 根据spark在官网下载的时候会提醒下载的hadoop版本
  • 去 [https://github.com/steveloughran/winutils] 选择你安装的Hadoop版本号,然后进入到bin目录下,找到 winutils.exe文件,下载文件,放到hadoop\bin下的文件夹。
  • 替换hadoop中的bin和etc https://github.com/sardetushar/hadooponwindows
    在window下为了不装cygwin,参考了下面的博客,使得能够在windows下使用hadoop,替换 原来的bin和etc,然后修改其中的core-site.xml和hdfs-site.xml的参数,详情可见参考博客,我是用的是hadoop-2.8.3的版本,可以使用。

b)配置环境变量

变量名HADOOP_HOME,变量值D:\system\hadoop-2.8.3\,然后到PATH中配置路%HADOOP_HOME\bin
c)启动hadoop,在cmd中先格式化hadoophadoop namenode -format,然后进入hadoop-2.8.3 / sbin中使用start-all.cmd启动hadoop和yarn。然后进入网页版进行测试,hadoophttp://localhost:8088和namenode<>

5、安装pyspark

a) 复制spark-2.4.3-bin-hadoop2.7\python\pyspark文件夹,以及解压spark-2.4.3-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip,到Anaconda3\pkgs文件夹下

b)测试:在命令行中输入python,import pyspark

6、hive的安装

a)安装地址
b)设置环境变量,HIVE_HOME,变量值为D:\system\hive-2.1.1\,然后到PATH中配置路由%HIVE_HOME\bin
c)复制mysql驱动jar到$HIVE_HOME/lib下。mysql的jar包下载地址
d)参数的设置,修改hive-site.xml中的文件存放地址和数据库的连接,具体可参考下边博客【hive配置参数的参考】
4)启动hive,使用hive之前必须要先启动hadoop和hdfs,启动之后在cmd命令中输入hive启动

思考:看了网上的教程总觉得可以直接下载pyspark的安装库,不用那么麻烦的,哪位小伙伴可以试试直接在anaconda环境中conda install pyspark 试试,能安装使用的话望告知哈

参考博客:
hadoop的搭建和参数配置
hive搭建与初始化的参考
hive配置参数的参考

你可能感兴趣的:(windows10 下Spark+Hadoop+hive+pyspark安装)