Cracking the coding interview--Q12.3

题目

原文:

Given an input file with four billion integers, provide an algorithm to generate an integer which is not contained in the file. Assume you have 1 GB of memory.
FOLLOW UP
What if you have only 10 MB of memory?

译文:

给一个有40亿个整型数据的输入文件,写出一个算法找出这个文件中不包含的一个数,假设有1GB的内存。

如果只有10MB的内存呢?

解答

先计算40亿数据的容量,大约需要40*10^8*4B=16GB容量,所以不能直接一次性将全部数据存入内存;我们可以通过用计算机的位标记某个数是否出现,就可以减少内存的使用。也就是用Bit Map算法,相关介绍:海量数据处理算法—Bit-Map http://blog.csdn.net/hguisu/article/details/7880288

若用Bit Map算法,则需要内存约为:40*10^8byte=5*10^8B=0.5GB,代码如下:

/*
为了减少运算时间,将数据改为100万,不过算法是一样的
*/
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;

class Q12_3{
	public static int dataSize=1000000;
	
	public static void createDataFile() throws IOException{
		BufferedWriter writer = new BufferedWriter(new FileWriter("1Billion.dat",false));
		for(int i=0;i<dataSize;i++){
			if(i!=10){                    //set 10 missing
			writer.write(String.valueOf(i));
			writer.newLine();
			}
		}
		writer.close();
	}
	public static int[] createBitMap(File file,int c) throws IOException{
		int size=c/32;
		if(c%32!=0){
			size+=1;
		}
		int[] bitmap = new int[size];
		BufferedReader reader = new BufferedReader(new FileReader(file));
		String line;
		while((line=reader.readLine())!=null){
			int number = Integer.valueOf(line);
			int idx = number/32;
			int offset = number%32;
			int i=1<<offset;
			bitmap[idx]=bitmap[idx]|i;
		}
		reader.close();
		return bitmap;
	}
	
	public static int findMissing(int[] bitmap){
		int n=0;
		for(int i=0;i<bitmap.length;i++){
			int k=1;
			for(int j=0;j<32;j++){
				if((bitmap[i]&k)!=0){
					k<<=1;
					n++;
				}else{
					return n ;
				}
			}
		}
		return  n;
	}
	
	public static void main(String[] args) throws IOException {
		createDataFile();
		File file = new File("1Billion.dat");
		int[] bitmap = createBitMap(file,dataSize);
		int missing=findMissing(bitmap);
		System.out.println(missing);
		
	}
}

若只能用10MB的内存,就只能用分块查找+BitMap了,详细参考:http://hawstein.com/posts/12.3.html


---EOF---




你可能感兴趣的:(Cracking the coding interview--Q12.3)