大数据-排序、查重、第k大

1. 排序、top k

  • 含有重复值:桶排序(将数据映射到有序桶中),每个桶再进行排序。其次还可以结合来实现 top k
  • 不含重复值:直接使用BitMap来做,每一个bit位都代表一个数字,比如若数字为 32,就可以 有bitSet.set(32),代表第32个bit位上有数字。——可以推出,16亿数字只会消耗 16*10^9个bit,即只会占用2G空间

2. 包含统计信息的排序、top k

【举个例子:有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。】

  • 解决思路:
    1. 设计M个桶(文件)——split
    2. 依次读取1M的数据,然后按 hash(word) % M 进行映射——partition
    3. 依次读取每一个桶的数据入内存,进行合并统计——merge、count
    4. 如果发现桶的数据量太大,则对该 桶 进一步 分割(递归走 步骤 1 到 4)——递归
    5. 直到统计完毕,每个桶中都读取前k(100)个词进内存,然后进行top k (小顶堆)

【再举个例子:包含200亿的int数据,内存限制100MB,不准写外存,寻找中位数】

  • 解决思路:这个就有点特殊了,因为不能写外存,只能在内存里面做计算
    • 依旧采取桶排序的思想,因为我们知道,一个int类型其取值范围,我们只需要,按照其取值范围划分成内存可以装下的最大的桶数,然后统计该桶的数量即可
    • 每个桶的最大可计数范围必定是个long 占 8byte(内存里面的桶可以用hashmap表示或者long[]数组),再加上一些其他的空间占用,可以估算出每个桶大约占10byte,那么最大的桶数即为 100MB/10B = 10个桶
    • 接下来就是进行hash计算,然后对数据流里面的数据不断去统计它对应的桶
    • 然后根据每个桶的数量去寻找第k大的数即可(第一次k=中位数,第二次递归,则k=k-去掉部分的count统计)

3. 查重、去重

一般而言,如果要求精度,则用BitMap(能存不足,可分割再多次BitMap),否则用布隆过滤器即可。

【举个例子:对10亿数据进行查重(比如URL),内存限制4GB】

  • 解决思路:
    • 因为最大10亿,不会超出4GB的限制,则直接按10亿进行hash模运算 ,每一个URL都会对应散列到一个数据上
    • 然后用bitmap存储
    • 当有url请求到来时,直接进行hash映射,查找其对应的bit位是否为1即可

【再举个例子:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url】

  • 解决思路:
    • 如果能够损失一定的精度,可以考虑布隆过滤器;否则,就分割,然后再BitMap
    • 比如这里我可以分割成4个文件,a1、a2、b1、b2
    • 然后循环读取a1,a2,生成相应的BitMap,然后再用读取依次读取b1、b2,判断是否存在重复即可

4. 去重

【在 2.5 亿个整数中找出不重复的整数,注,内存不足以容纳这 2.5 亿个整数】

  • 采用2-Bitmap(每个数分配 2bit,00 表示不存在,01 表示出现一次,10 表示多次,11 无意义)进行,共需内存 2^32 * 2 bit=1 GB 内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。扫描完事后,查看bitmap,把对应位是01的整数输出即可。

5. 总结

  1. 总之一句话,含重复值的排序则参考 MapReduce 的处理思路:

    • Map——shuffle(partition、merge、count…)(关键就在于这里,分组,合并,统计,溢写)——Reduce
  2. 查重、去重和不含重复值的排序则采用BitMap或布隆过滤器

你可能感兴趣的:(分布式)