分析并统计数据量为TB,PB级别的文档中的数据

一. 问题描述:
假设有一个10TB大小的文本文件test.txt,文本中每一行是一个0-10000的随机数, 现在要统计出文件中最大的1000个数字,请提出解决方案,并通过代码实现。
二.解决方案
方案1:
(1)读取文本文件中的数据, 存入数组或者列表(列表底层是通过数组实现的)中, 将数组或者列表进行排序,取出前1000个或者后1000个数据即可。
(2)这种解决方式有缺陷吗,数组能存下那么多数据吗,  接下来计算一下:
10TB=10*1024GB=10*1024*1024MB=10*1024*1024*1024KB = 10*1024*1024*1024*1024B;
int类型占4个字节;
需要数组的长度:10TB/4B=10*1024*1024*1024*1024B/4B = 2748779069440
(3)java中,数组能存放数据的最大长度是多少呢
定义数组的时候必须有一个初始化的长度: int[] array = new int[10];,初始化的长度是一个int类型的,
4个字节=32位,最大值为2的31次幂减1,即2147483647,大于 2748779069440。
(4)结论:存不下
方案2:
(1)采用分而治之的思想解决(将10T文件分成若干子文件,读取每一个子文件的数据存入数组中,对每一个数组进行排       序,最后将所有数组进行一定的操作,取出最大的1000个数字即可)
(2)注意要确定子文件的大小和切割的子文件个数。
(3)代码在git上:点击打开链接

你可能感兴趣的:(Java)