大数据处理 --- 求中位数

 

中位数并不是大小位于中间的数,而是排序之后,位置位于中间的数。

若是n个数,n为奇数,则中位数是数组a[ ]排序之后 a[(n+1)/2] ; 若n为偶数,中位数是(a[n/2] + a[n/2+1])/2

如: 5 5 5 6 7 8 9 中位数是6

题目:

只有2G内存的pc机,在一个存有10G个整数的文件,从中找到中位数,写一个算法

对于海量数据求中位数,在网上看到两种方法。

 

1. 分区间堆排序
在现有M大小内存情况下若最多能够造出包含p个数据的堆,则先扫描一次这N个数据找到最小的p个数,耗时O(Nlog(p)),设这p个数中最大的数是a,将堆清空,在第二轮扫描出比a大的中最小的p个数,然后在把a改为记录这p个数中最大的数,依次类推,直到计算到某一轮p个数和之前够造出的数的个数大于N/2,在这p个数中找到所有数中的中位数,耗时的地方是每轮扫描构建堆都要用了O(Nlog(p)),构造的次数为N/(2*p),所以它的时间复杂度是O(N*N*log(p)/(2*p)).

你可能感兴趣的:(大数据处理 --- 求中位数)