py4j.protocol.Py4JJavaErro PySpark 读取文件的方法

py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.

异常的解决办法:

通常是新手在刚开始使用 pyspark 的时候,对于 spark 文件读取路径不太理解导致的异常


pyspark 读取本地文件和HDFS文件的方式:

 '''# hdfs目录格式如下'''
input_data_path = "hdfs://localhost:9002/input/2017-11*"

 '''# 本地文件目录'''
input_data_path="file:///Users/a6/Downloads/input_local/2017-09*"

print input_data_path

result = sc.textFile(input_data_path)

参考资料:

1、py4j.protocol.Py4JJavaError错误
https://blog.csdn.net/Eat_shopping/article/details/78251442

2、Spark中加载本地(或者hdfs)文件以及 spark使用SparkContext实例的textFile读取多个文件夹(嵌套)下的多个数据文件
https://blog.csdn.net/helloxiaozhe/article/details/78480108

你可能感兴趣的:(Spark)