计算pv和uv时数据倾斜的处理

背景

计算pv和uv时经常出现数据倾斜,比如在场门客流统计时,地铁口场门是其他场门的上百倍。这很容易导致数据倾斜

解决方案

整体思路是把数据打撒,做两阶段聚合。但是在计算pv和uv时,还是略有不同。

  • 计算pv时,在group by后简单添加随机数即可,代码如下:
select dt,
       gate_id,
       sum(pv) as pv
from(
  select
        dt,
        gate_id,
        count(pid

你可能感兴趣的:(bigdata,conception)