大数据小内存TOPK,排序问题。

大数据小内存TOPK,排序问题。

问题

10亿个int数字,从小到大排序,或者得到TOP100,等问题。

解答

可以使用堆排序解决,小顶堆或者大顶堆。
从小到大排序,使用小顶堆,将所有数字按内存大小分段,内部排好序,从每一段中取出最小的数字,建立小顶堆,每次把堆定输出到磁盘保存,再从堆定所在的段中取数字,重新建立小顶堆,最终完成排序。
对于排序问题,TOP100,维持一个有100个节点的小顶堆,每次读入一个新数字,与堆定比较,如果比堆顶大,则抛弃堆定元素,重新建立大顶堆。

对于排序问题,可以用一个2^32的bit数组,每读一个数,对应的位置上设置为1,最后从小到大遍历数组。

大数据去重

问题提出:

M(如10亿)个int整数,只有其中N个数重复出现过,读取到内存中并将重复的整数删除。

解答

可以使用bitmap,将4字节的int值映射为1字节的byte.

你可能感兴趣的:(Java,数据库)