python3运行spark程序报错:ModuleNotFoundError: No module named ‘_ctypes‘

目录

一、项目场景:

二、问题描述

三、原因分析:

四、解决方案:


一、项目场景:

我在安装完spark和anaconda之后准备用python进行spark编程,在用python命令跑python程序的时候报了这个错误,这里记录一下是如何解决的。


二、问题描述

编写的spark程序:

from pyspark import SparkContext
sc = SparkContext( 'local', 'test')
logFile = "file:///usr/local/spark/README.md"
logData = sc.textFile(logFile, 2).cache()
numAs = logData.filter(lambda line: 'a' in line).count()
numBs = logData.filter(lambda line: 'b' in line).count()
print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

运行报错:

三、原因分析:

查了资料,发现是CentOS7系统中缺少外部函数库(libffi)的开发链接库软件包,而在运行spark程序的时候又用到了所以就报这个错误。

参考文章:link


四、解决方案:

1、安装外部函数库(libffi)

yum install libffi-devel -y

2、原来已经配置好的环境变量不用改变,直接删除anaconda3,然后再安装一边就好了。

        2.1、删除

rm -rf anaconda3

        2.2、安装

bash ...  #这里...是你自己的anaconda安装包

再次运行python文件,成功运行:

 

你可能感兴趣的:(saprk,spark,python,大数据)