面试题:
如果有一个文件很大,内存很大,不知道有多少行。你的任务是随机输出一行。文件只能遍历一次。
解析:算法就是需要保证输出一行的概率是相等的。
相关问题:
给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)。
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.Random;
public class RandomOutput {
public static String randomOutput(String path) {
String res = null;
String temp = null;
FileReader reader = null;
BufferedReader br = null;
int i = 0;
int ranValue = 0;
// Random rand = new Random();
try {
reader = new FileReader(path);
br = new BufferedReader(reader);
res = br.readLine();
i++;
while((temp = br.readLine()) != null) {
i++;
System.out.println(i);
// ranValue = rand.nextInt(i);
ranValue = new Random().nextInt(i);
System.out.println(ranValue);
if (ranValue < 1) {
res = temp;
}
}
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
try {
br.close();
reader.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return res;
}
public static void main(String[] argv) {
String res = randomOutput("test.txt");
System.out.println(res);
}
}
解法:
该算法是针对从一个序列中随机抽取不重复的k个数,保证每个数被抽取到的概率为k/n这个问题而构建的。做法是:
首先构建一个可放k个元素的蓄水池,将序列的前k个元素放入蓄水池中。
然后从第k+1个元素开始,以k/n的概率来决定该元素是否被替换到池子中。 当遍历完所有元素之后,就可以得到随机挑选出的k个元素。复杂度为O(n).
其伪代码如下:
Init : a reservoir with the size: k
for i= k+1 to N
M=random(1, i);
if( M <= k)
SWAP the Mth value and ith value
end for
证明每个数被取到的概率为k/n:
对于第i个数(i
对于第j个数(j>=k)被选中的概率为: 在他出现时被选中的概率 * 在他出现以后不被换走的概率,即:
k/j * j /j+1*...*n-1/n = k/n
综上得证。