从10G个整数中找出中位数

10G 个整数中找出中位数(假设有 2G 可用内存)。

 

首先想到的是,用计数法来统计。但有 10G 个数,根本没有那么多内存可用。计数法排序可以认为是桶排序的一种特殊情形(桶间间隔为 1 ),因而考虑增大桶间间隔。

假设这些数都是 32 位数,都是无符号数(如果是有符号数则转为无符号数)。先设法先确定中位数的高 16 位,将中位数的高 16 位的所有可能值(值为 0 0xFFFF ),可看做 0x10000 个桶,第一遍扫描这 10G 个数(每次读入 2G ,读取 5 次),用计数排序法(这需要 256KB 内存)统计每个桶中数的个数。对统计结果处理,可找出所要求的中位数(第 5G 个数)所在的桶,以及在该桶所有数排序后的位置(假设为这些数中的第 M 大的数)。由于已经确定中位数的高 16 位,接着确定低 16 位的值,同样,可以将低 16 位的数值看做 0x10000 个桶,第二遍扫描这 10G 个数,过滤掉高 16 位值不是所求的数,对剩下的数的低 16 位用计数法统计。最后处理结果,直接输出所要求的中位数(第 M 大的数)。(注意,如果总个数是偶数,中位数是最中间的两个数的平均值。)

 

由于,一个 32 位数最大能表示 4G 。因此,计数时,最多只会有两个桶(或一个桶两次)出现溢出。必须还要设两个数,记录这两个桶编号。如果这 10G 个有一部分是负数,可以将这些数先转化为无符号数,统计时,只要注意桶大小排序是 0x8000 0xFFFFF (这部分为负值)、 0-0x7FFF

 

如果要求找出最大的 5G 个数。第二遍扫描时, 1G 内存用于读入文件, 1G 内存用于写入文件 ,这样只要 10 次读取, 5 次写入。第二遍扫描,过滤掉的高 16 位值若大于中位数的高 16 位值,则直接输出这个数,第二次统计时,再输出中位数后面的数。另外,上面提到的计数方法,实际上是 rapid sort ,而不是 counting sort ,无法保证所有输出的数的排序和原顺序相同,如果中位数所在桶的数比较少,可以申请空间保存这些数,或者进行第三遍扫描,按计数排序的处理方法,保证这些数按原顺序输出。

 

两次计数排序用的内存大小都是 256KB ,对现在主流 CPU ,都可以全部载入到 CPU 缓存,访问内存的额外开销小,性能不会差。

 


 

你可能感兴趣的:(从10G个整数中找出中位数)