1、下载anacond并安装,可以选择自动配置环境变量,也可以后面手动配置环境变量
2、http://spark.apache.org/downloads.html 下载spark的对应版本
3、解压到一个指定的你想要存放的本地spark目录,自己创建,方便以后管理
4、设置各种环境变量,如下
这里 java scala 的环境配置不必要但是还是需要配置一下,特别注意这里的
PYSPARK_PYTHON
PYSPARK_DRIVER_PYTHON 这两个参数只想的python版本一定要一致,并且最后把这两个指定到path变量中去,不然就跟我一样,一直报错如下 difficult version mirror image 就是我虽然配置了 两个参数是一样的,但是由于没加入到path变量中,搞了我一小时,加入就肯定没问题
最后一个 修改spark/conf/spark.env 文件, 指定pyspark启动的python环境为 Anacond3的环境,并且由上面指定的环境变量来执行,最后大功告成
4 结果如下, 测试成功, 而且这样不会影响到 pycharm对spark 任务的提交