sparkstreaming读取文件读取不到数据

今天用了下sparkstreaming读取hdfs文件或本地目录文件,发现文件内容一直不会被处理,

使用了下面两种方法都不行,阅读源码并开启DEBUG后发现,textFileStream后面也是调用fileStream方法,并且newFilesOnly传入的为true,查看源码发现这个类中的逻辑:大于下面这个modTimeIgnoreThreashoid值的文件都不会被处理。。这个比较坑,老文件无论如何都不会被处理。刚开始的时候这个值传入true并且也使用新文件,也是一样没有处理,开了DEBUG后才发现有一个guava的错误,由于版本引起的,解决版本冲突后成功读取文件。

ssc.fileStream[LongWritable,Text,TextInputFormat](input,(x:Path)=>true,newFilesOnly = false),
ssc.textFileStream(input)

sparkstreaming读取文件读取不到数据_第1张图片

 

最后发现下面这个参数比较关键:

sparkstreaming读取文件读取不到数据_第2张图片

请自己看,没时间写博客

你可能感兴趣的:(大数据处理经验,spark,streaming,spark)