Spark读取本地文件问题

Spark 读取本地文件问题

网上给出的多是下面两种方案

  • 解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。

  • 解决方式2:直接将数据文件上传到hdfs,达到数据共享。(强烈推荐,比格更高更专业)

       不过多是将文件发到hdfs,明明记得可以读取本地文件,后来在林子雨老师厦门大学大数据实验室博客上找到解决办法:

本地文件数据读写

textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word123.txt")

        并且需要注意,要加载本地文件,必须采用“file:///”开头的这种格式。执行上上面这条命令以后,并不会马上显示结果,因为,Spark采用惰性机制,只有遇到“行动”类型的操作,才会从头到尾执行所有操作。

你可能感兴趣的:(python操作数据,python,spark,大数据)