pyspark-结构化流 在指定 maxOffsetsPerTrigger 的情况下,读取row行数 会翻倍?

今天在读取 kafka 时,写了一个 sql 统计。结果发现指定 maxOffsetsPerTrigger 在2W ,结果读了 3W多条数据。

很纳闷~

 

后来调试发现是自己 sql 的问题

SQL 如下:

 select t1.ip,t1.cseq,count(1) cnt
        from
        (
            select
                f_ip as ip ,
                cseq
                from temp
            union all
            select
                t_ip as ip,
                cseq
                 from temp
        ) t1
        group by t1.ip,t1.cseq
        order by cnt desc


 

基本确定时   union all 搞的鬼。而且最后的统计结果翻了倍。

这种逻辑要慎写! 读取两次是因为有两个一样的查询,可以事先 做持久化。

 

你可能感兴趣的:(个人日记)