windos 安装jdk+hadoop +spark+pyspark

1.下载jdk1.8 jdk1.8地址


windos 安装jdk+hadoop +spark+pyspark_第1张图片

安装java环境变量 

因为我的javajdk在本地 C:\Java\jdk1.8.0_151 故此:

看清楚是环境变量还是系统变量 path java 跟hadoop 都要跟到bin下


windos 安装jdk+hadoop +spark+pyspark_第2张图片


windos 安装jdk+hadoop +spark+pyspark_第3张图片


windos 安装jdk+hadoop +spark+pyspark_第4张图片

测试一下java环境变量是否配置成功

win+r  启动命令窗口 里面输入 cmd


windos 安装jdk+hadoop +spark+pyspark_第5张图片

回车之后输入javac 如下 表示配置成功


windos 安装jdk+hadoop +spark+pyspark_第6张图片

2. 下载hadoop2.7 hadoop地址 

找到对应版本 本次使用hadoop2.7   windows 下安装hadoop



windos 安装jdk+hadoop +spark+pyspark_第7张图片


windos 安装jdk+hadoop +spark+pyspark_第8张图片

环境变量中添加HADOOP_HOME=C:\hadoop-2.7.4\hadoop-2.7.4


windos 安装jdk+hadoop +spark+pyspark_第9张图片


将C:\hadoop-2.7.4\hadoop-2.7.4\bin和C:\hadoop-2.7.4\hadoop-2.7.4sbin添加到path中。 


windos 安装jdk+hadoop +spark+pyspark_第10张图片

下载一个重要的东西

hadooponwindows 

地址:https://github.com/sardetushar/hadooponwindows

把原来hadoop  自带的 bin 目录下 与etc 目录下的东西都删掉

换成 hadooponwidows 里面的


windos 安装jdk+hadoop +spark+pyspark_第11张图片

修改配置文件 

1.etc/hadoop.core-site.xml

windos 安装jdk+hadoop +spark+pyspark_第12张图片

2:etc/hadoop/mapred-site.xml


windos 安装jdk+hadoop +spark+pyspark_第13张图片

3:etc/hadoop/hdfs-site.xml


windos 安装jdk+hadoop +spark+pyspark_第14张图片

4:etc\hadoop\yarn-site.xml


windos 安装jdk+hadoop +spark+pyspark_第15张图片

5:etc/hadoop/hadoop-env.cmd


windos 安装jdk+hadoop +spark+pyspark_第16张图片

执行操作

    1 .切换到etc/hadoop目录,运行hadoop-env.cmd

    2. 切换到bin目录然后,格式化HDFS文件系统,执行命令:hdfs namenode -format

    3、到这里,你的hadoop就可以正常使用了。可以查看一下版本,bin目录 执行 hadoop version

    4、启动 cd到hadoop的sbin目录,运行start-all.cmd\

    5、在浏览器中输入 http:\\localhost:8088打开hadoop的web管理网页即可。


windos 安装jdk+hadoop +spark+pyspark_第17张图片

3.下载spark spark地址

windos 安装jdk+hadoop +spark+pyspark_第18张图片


windos 安装jdk+hadoop +spark+pyspark_第19张图片

1,将spark所在目录下(比如我的是C:\spark-2.2.1-bin-hadoop2.7\spark-2.2.1-bin-hadoop2.7\python)的pyspark文件夹拷贝到python文件夹下(我的是C:\Python35\Lib\site-packages)

具体目录要看大家自己安装的时候是放在哪的!


windos 安装jdk+hadoop +spark+pyspark_第20张图片



windos 安装jdk+hadoop +spark+pyspark_第21张图片

2,安装py4j库

一般的在cmd命令行下 pip install py4j 就可以。若是没有将pip路径添加到path中,就将路径切换到python的Scripts中,然后再 pip install py4j 来安装库。

3,修改权限

将winutils.exe文件放到Hadoop的bin目录下(我的是C:\hadoop-2.7.4\hadoop-2.7.4\bin),然后以管理员的身份打开cmd,然后通过cd命令进入到Hadoop的bin目录下,然后执行以下命令:

winutils.exe chmod 777 c:\tmp\


windos 安装jdk+hadoop +spark+pyspark_第22张图片

然后启动命令行输入 pyspark

如下图 不报错就代表安装成功了


windos 安装jdk+hadoop +spark+pyspark_第23张图片


如有问题请留言感觉不错请打赏下 谢谢

你可能感兴趣的:(windos 安装jdk+hadoop +spark+pyspark)