Python程序员面试算法宝典---解题总结: 第9章 大数据 9.8 如何从5亿个数中找出中位数

# -*- coding: utf-8 -*-

'''
Python程序员面试算法宝典---解题总结: 第9章 大数据 9.8 如何从5亿个数中找出中位数

题目:
从5亿个数中找出中位数。数据排序后,位置在最中间的数值就是中位数。
当样本数为奇数时,中位数=(N+1)/2;当样本数为偶数时,中位数为N/2和
1+N/2的均值(那么10G个数的中位数,就是第5G大的数与第5G+1大的数的平均值了)。

分析:

关键:
1 书上解法
解法1: 大顶堆与小顶堆
满足:
1) 大顶堆中最大的数值小于等于小顶堆中最小的数
2) 保证这两个堆元素个数差值不能超过1
当数据总数为偶数那么中位数是两个堆的堆顶的平均值;
当数据总数为奇数,中位数,在数据较多的堆的堆顶。
设小顶堆为minHeap,大小为minSize;
设大顶堆为maxHeap,大小为maxSize;
分为如下情况:
1 data < maxHeap堆顶元素
1.1 如果maxSize <= minSize, 将data插入大顶堆,并调整大顶堆
1.2 否则,大顶堆中元素个数多,将大顶堆的堆顶元素插入到小顶堆中,并调整小顶堆;
然后将data元素插入到大顶堆,并调整大顶堆;

2 data > maxHeap堆顶元素
2.1 如果maxSize < minSize,将data与minHeap堆顶元素的较小值插入maxHeap中,把
data与minHeap堆顶元素的较大值插入到minHeap中
2.2 否则,把data插入到minHeap

3 maxHeap堆顶元素 <= data <= minHeap堆顶元素
3.1 maxSize < minSize,将data插入到大顶堆
3.2 maxSize > minSize, 将data插入小顶堆
3.3 否则,把data随意插入到任意一个堆

2 方法2
最高比特位分治法,
遍历数字,获取数字的最高位,如果为1,写入文件f1;
否则写入文件f0;
统计f1的数字多少,统计f0的数字多少,
确认中位数在哪个文件中。
然后读取文件中的数字,获取次最高位,继续用上述方式划分。
直到划分到文件可以加入内存中。

3 没有想到
是因为忘记双堆可以求中位数的方式,以及
通过获取数字的最高次划分到f0,f1,继续对次高位划分确定中位数所在文件的方式。

参考:
Python程序员面试算法宝典
'''


def process():
    pass


if __name__ == "__main__":
    process()

 

你可能感兴趣的:(Python程序员面试算法宝典)