topk的解决方法

https://soulmachine.gitbooks.io/system-design/content/cn/bigdata/heavy-hitters.html
这个挺好的。
严格的就是得sharding+map算。
不严格的

  1. sketch min count。
  2. lossy 加一个 windows的那种,能严格控制数据量的大小。
  3. 这个里面没有讲,不过也比较make sense就是来一百条数据,但是只记录1条,也是概率的问题。

你可能感兴趣的:(topk的解决方法)