海量数据处理

题目

 有一亿个浮点数,请找出其中最大的10000个。提示:假设每个浮点数占4B,一亿个浮点数就要占用相当大的空间,因此不能一次将全部读入内存进行排序。 

方法一:

独处100万个数据,找出最大的一万个。如果这一万个数据选择够理想,那么以这一万个数据中最小的为基准,可以过滤掉1亿个数据里面99%的数据,这样就在剩余的100W个数据中找出最大的10000个即可。

方法二:

分块查找,选择100万个数据为一块,这样1亿个数据分为10000块,每块里面找出10000个最大的数。一次下来,就剩下100W个数,再次找出最大的10000个即可。
注明:
找出100W个数据中最大的一万个,采用快速排序的思想,分为2组,如果大的那组个数N大于1万个,继续对大组快速排序分为2组。如果大的那组数据小于1万个,就在小的那组里面快速排序,找第10000-N大的数。递归以上过程,即可。

你可能感兴趣的:(海量数据处理)