spark解析html文件,如何在java代码中读取spark保存的文件

我是Spark的新手。我有一个文件TrainDataSpark.java在我处理一些数据,并在它结束时,我用我救了我的火花处理的数据到一个目录中称为预测下面的代码如何在java代码中读取spark保存的文件

predictions.saveAsTextFile("Predictions");

在同一TrainDataSpark.java下面我列举加代码部分紧跟在上面的行之后。

OutputGeneratorOptimized ouputGenerator = new OutputGeneratorOptimized();

final Path predictionFilePath = Paths.get("/Predictions/part-00000");

final Path outputHtml = Paths.get("/outputHtml.html");

ouputGenerator.getFormattedHtml(input,predictionFilePath,outputHtml);

而且我得到/ Predictions/part-00000的NoSuchFile异常。我尝试了所有可能的路径,但是失败了。我认为java代码搜索我的本地系统上的文件而不是hdfs群集。有没有办法从集群获取文件路径,所以我可以通过它进一步?或者有没有办法将我的预测文件加载到本地而不是群集,以便java部分运行时出错错误?

2016-12-12

ysg7790

+0

这仅仅是路径/用户/用户名/预测/兼职00000 –

+0

在调用'saveAsTextFile'后文件是否物理存在于'/ Predictions/part-00000'中? –

你可能感兴趣的:(spark解析html文件)