Windows Pycharm 下运行Spark 错误纪录

以下只是纪录,没有做严谨的测试。

"""
@Author: Xiaohong
@file 01.py
@time: 2022-10-29 
@OS: win7 旗舰版 Service Pack1
@python 3.7
@版本: jdk:1.8.0-212;Scala: 2.13.7  Spark: 3.3.1  Hadoop:2.6.4  Py4j:0.10.9.5 AnaConda:3
"""

在Windows下,Pycharm 运行如下语句,出错:

import os
import sys

os.environ['SPARK_HOME']='D:\spark'
os.environ['JAVA_HOME']='C:\Program Files\Java\jdk1.8.0_212'
# os.environ['SPARK_LOCAL_IP']='192.168.101.135'
sys.path.append('d:\spark\python')

try:
    # from pyspark.sql import SparkSession
    from pyspark import SparkContext
    print('success imported Spark Modules')
except:
    print('failure to imported ')
    sys.exit(1)

sc=SparkContext('local')
rdd1=sc.textFile("file:///g://import-this.txt")
rdd2=rdd1.flatMap(lambda x:x.split(" "))
rdd3=rdd2.map(lambda x:(x,1))
rdd4=rdd3.reduceByKey(lambda a,b:a+b)
rdd5=rdd4.collect()
print(rdd5)

出错信息截图:

Windows Pycharm 下运行Spark 错误纪录_第1张图片

经排查,为 spark 为3.3.1版本,在 spark\python\run-tests 配置文件中,要调用python3,但环境中,是用python 来启动,故产生错误。

解决方法是:把 python.exe 复制为python3.exe 即可

 

你可能感兴趣的:(Python,windows,pycharm,spark)