大数据下的基数估计(Linear Counting,LogLog Counting,HyperLogLog Counting,Adaptive Counting)
基数估计缘起项目中遇到的问题,考虑如下场景:A,B,C,…..N个集合,这里的集合不是严格意义上的集合,只是指一个list,里面有重复元素。然后我要统计这些集合的交集,并集的集合(这里的交集并集为严格意义上的集合,无重复元素)的数量,即先做innerjoin后,再count(distinct())。这些集合的大小从十万到十亿不等,大概有几百个这样的集合。目前是通过mapreduce来进行计算。下一