在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。

题目:在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可(内存限制为 2G的意思就是,可以使用2G的空间来运行程序,而不考虑这台机器上的其他软件的占用内存)。

关于中位数:数据排序后,位置在最中间的数值。即将数据分成两部分,一部分大于该数值,一部分小于该数值。中位数的位置:当样本数为奇数时,中位数=(N+1)/2 ; 当样本数为偶数时,中位数为N/2与1+N/2的均值(那么10G个数的中位数,就第5G大的数与第5G+1大的数的均值了)。

解法:

(1)根据整数二进制数高12位取值, 对10G个文件进行分割, 分割成2的12次方(4096)个文件, 每个文件大约有2.5M个整数。

(2)因为4096个文件按整数高12位分割的, 所以文件间是有序的, 例如高12位为0000 0000 0000的文件里的数字是所有数字里最小的, 高12位为 0000 0000 0001的文件中的数字是所有数字中相对次小的。

(3)以此按从小到大的顺序对文件中数字的个数进行统计, 分别记为x1, x2, ..., xk..., 直到某个文件i使x1+x2+...+xi和大于5G结束, 中位数就在这个文件中。然后对这个文件进行处理。

(4)第i个文件中, 大约有2.5M个数字, 取值有1M个,遍历文件对1M个数字出现的次数进行统计。

(5)对1M个取值, 按照从小到大进行加和, 第一个使总和到达5G的数字就是中位数。

你可能感兴趣的:(算法学习)