StructuredStreaming输出模式和结果输出文件中

输出模式

StructuredStreaming输出模式和结果输出文件中_第1张图片

#format指定输出位置 console:控制台
#append 不支持排序,不支持聚合, 每次输出数据都是最新的数据内容
#complete 必须聚合,支持聚合后排序 每次输出数据都会将原来的数据一起输出
#update 支持聚合,支持select单纯的查询 不支持聚合后排序,每次输出时,只展示最新聚合后的结果

df.writeStream.start(format='console',outputMode='update').awaitTermination()

结果输出文件中

眼熟该报错
在这里插入图片描述

也就是说不支持聚合结果输出到文件当中
在这里插入图片描述

StructuredStreaming输出模式和结果输出文件中_第2张图片

如何将聚合的数据输入到文件中

StructuredStreaming输出模式和结果输出文件中_第3张图片

def func(df,df_id):
	#df是处理后的数据
	#df_id处理的批次
	print(f'处理的批次为{df_id}')
	df.show()
	df.write.json('地址',mode=over)

你可能感兴趣的:(Spark阶段,spark,大数据,python)