随机采样问题

问题:从 1到n个数中随机选出m个不同的数。(编程珠玑12章)

第一种算法,从r个剩余的整数中选出s个,以概率s/r选择下一个数

1  initialize set S to empty

2  Size:=0

3  while Size<m do

4      T:=RandInt(1,N)

5      if T is not in S then

6          insert T in S

7          Size:=Size+1

这个算法有一个致命的缺陷是每新产生一个随机数都要判断其是否已经被集合S包含。通常情况下,如果不借用其它数据结构,就需要遍历整个集合S。最极端的情况是m=n且T:=RandInt(1,N) 。

 

一种改进算法是

1  for I:=1 to N do

2      X[I]=I;

3  for I:=1 to M do

4  {

5      J:=RandInt(I,N);

6      Swap(X[J],X[I]);

7  }

 

这个算法的优点:

1.不需要判断产生的随机数是否已经存在。

2.产生的随机数是无序的,适合排序。

3.其算法性能不受M与N的关系限制。

其代价就是要多消耗O(N-M)的空间,其运行时间为O(N)。如果N>>M,这个算法无论从哪个角度讲都是无法接受的。

 

下面我们给出Floyd算法,在N>>M时,更有效率。

 1  function Sample(M,N)

 2      if M=0 then 

 3          return the empty set

 4      else

 5          S:=Sample(M-1,N-1)

 6          T:=RandInt(1,N)

 7          if T is not in S then

 8              insert T in S

 9          else

10              insert N in S

 

Floyd算法的结构很容易递归的理解:为了从1..10中产生一个5元素样本,首先从1..9中产生一个4元素样本,然后在加上第5个元素。

用归纳法证明每个元素被取到的概率是一样的。

当M=1时,显然成立。假设Sample(M-1,N-1)成立,即1..N-1被取到的概率都是M-1/N-1。

那么在Sample(M,N)中,N被取到的概率为1/N+M-1/N=M/N.(T=RandInt(1,N),T为N的概率是1/N,T不为N但是已经被选过,即T是N个数里面选M-1个数的概率,等于M-1/N

对于1..N-1中的任意数一个数,在Sample(M,N)中被取到的概率是M-1/N-1+(1-M-1/N-1)/N=M/N.(在Sample(M-1,N-1)被取到M-1/N-1,没被取到记为A=1-(M-1/N-1),在T=RandInt(1,N)里面取到的概率为1/N,所以总概率为M-1/N-1 + A*1/N=M/N)证毕

Floyd通过引入一个新变量将上述算法改写成迭代形式:

1  initialize set S to empty

2  for J:=N-M+1 to N do

3      T:=RandInt(1,J)

4      if T is not in S then

5          insert T in S

6      else

7          insert J in S

 

 改进后的算法虽然取消了递归,但是这个M个随机数是从小到大排列的。某些情况可能要求随机数是随机分布的。事实上可以对算法稍微修改下,比如引入随机位置插入新产生的随机数就可以满足要求。

 

下面是用c++实现的floyd算法

 1 void Floyd(int m, int n)

 2 {

 3     set<int> outSet;

 4 

 5     for(int j=n-m;j<n;j++)

 6     {

 7         int t = rand()%n;

 8 

 9         if (outSet.find(t)!=outSet.end())

10         {

11             outSet.insert(j);

12         }

13         else

14             outSet.insert(t);

15     }

16 

17     set<int>::iterator it;

18     for(it=outSet.begin();it!=outSet.end();it++)

19         cout<<" " << *it;

20     cout << endl;

21 }

 

对于这个问题,还有一种考虑的解法:

首先扫描一遍链表,对每个节点赋予一个随机的值(譬如一个随机整数);然后使用一种Top K算法(譬如最大K个整数)得到需要的K个节点。

 

本文参考了2010Freeze的文章,链接http://www.cnblogs.com/2010Freeze/archive/2012/02/27/2370284.html

你可能感兴趣的:(问题)