Windows+spark+scala+hadoop的Spark(python)开发环境搭建

实习单位的主管让我在写接口之余搞搞Spark,搞了2天终于搞定了windows下的单点伪分布式模式了,搭环境的坑实在是太多、太多了。主要是现在网上的博客,假的太多了,就是为了骗访问量,太无耻!!!

希望看到我这篇博客的同志们,可以少走一些弯路!

注:   

  1. Spark暂不支持python3.6。

  2. 每一步一定要认真做,环境变量很容易出错。

  3.  我用的是 Anaconda4.2.0,创建的虚拟环境,将spark文件的pyspark复制到了虚拟环境的这个相对位置,(我的是D:\software installation address\python3.5\python\envs\py35\Lib\site-packages),用命令(conda install py4j)安装在虚拟环境中安装的。

  4. 如果您学接触python已经有一段时间了,请一定研究一下它的虚拟环境,会用了之后,你就会感受到它带给你的便利。(我这次采坑幸好有虚拟环境,否则我的python开发环境就乱套了!)。

话不多说,先来几张图!!

1. spark运行图

Windows+spark+scala+hadoop的Spark(python)开发环境搭建_第1张图片

2. web端查看

Windows+spark+scala+hadoop的Spark(python)开发环境搭建_第2张图片

3.实例程序运行图

Windows+spark+scala+hadoop的Spark(python)开发环境搭建_第3张图片

4.实例代码:

import sys,os
os.environ['SPARK_HOME']="D:\software_install_address\spark-2.3.0-bin-hadoop2.7"
sys.path.append("D:\software_install_address\spark-2.3.0-bin-hadoop2.7\python")
from operator import add
from pyspark import SparkContext
import pyspark
if __name__ == "__main__":
    sc = SparkContext(appName="PythonWordCount")
    lines = sc.textFile('words.txt')
    counts = lines.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add)
    output = counts.collect()
    for (word, count) in output:
        print("%s: %i" % (word, count))
    sc.stop()

6. 参考博客及下载地址总结:

Windows+spark+scala+hadoop的Spark(python)开发环境搭建_第4张图片

7. 我自己用到的安装包

Windows+spark+scala+hadoop的Spark(python)开发环境搭建_第5张图片

8. 我的安装包的下载地址:

直接去我百度云拿:链接:https://pan.baidu.com/s/1dQx_DNP2D2GoZSYYhQj1iw 
提取码:uzao 
不会让博友们浪费积分!!

如果这篇博客真的帮到你了,请给个好评!!

附录:

一、参考文献
    1. https://blog.csdn.net/songhaifengshuaige/article/details/79480491
    2. https://blog.csdn.net/zhongjunlang/article/details/80816711
    3. https://blog.csdn.net/proplume/article/details/79798289(注意spark不兼容python3.6)
    4. https://mp.weixin.qq.com/s?__biz=MzI5MzIwNDI1MQ==&mid=2650120932&idx=5&sn=fa924c8677411661a31df945b330c028&chksm=f474ba90c303338678dcd26edd5707d667c4bbe4a93b1f4e33591892cd858fd2da8db988be38&mpshare=1&scene=23&srcid=0117k0pBqKT5ucoXacbBHMfW&client=tim&ADUIN=278793087&ADSESSION=1517886579&ADTAG=CLIENT.QQ.5537_.0&ADPUBNO=26752#rd
    5.https://blog.csdn.net/quintind/article/details/79604591

二、各种软件下载地址(包含所有版本,自己也可以找一下清华、阿里等镜像源,那下载速度快、版本不全):
      1.scala下载地址:https://www.scala-lang.org/download/all.html
      2.spark下载地址:https://archive.apache.org/dist/spark/
      3.hadoop下载地址:https://archive.apache.org/dist/hadoop/common/
      4.winutils下载:https://github.com/steveloughran/winutils

图7(下图)

Windows+spark+scala+hadoop的Spark(python)开发环境搭建_第6张图片

 

 

 

 

 

 

 

你可能感兴趣的:(Windows+spark+scala+hadoop的Spark(python)开发环境搭建)