pyspark-结构化流 在指定 maxOffsetsPerTrigger 的情况下,读取row行数 会翻倍?
今天在读取kafka时,写了一个sql统计。结果发现指定maxOffsetsPerTrigger在2W,结果读了3W多条数据。很纳闷~后来调试发现是自己sql的问题SQL如下:selectt1.ip,t1.cseq,count(1)cntfrom(selectf_ipasip,cseqfromtempunionallselectt_ipasip,cseqfromtemp)t1groupbyt1.i