在n不确定的情况下生成k个随机数

在n不明确的情况下,随机取k个元素。
转自:http://wansishuang.iteye.com/blog/443902
随即抽样问题:
 
    要求从N个元素中随机的抽取k个元素,其中N无法确定。
 
  是在 《计算机程序设计与艺术》 中看到的这个题目,书中只给出了解法,没给出证明。
 
  解决方法是叫Reservoir Sampling (蓄水池抽样)
 
 
                       Init : a reservoir with the size: k
 
                       for   i= k+1 to N
                              M=random(1, i);
                              if( M < k)
                                      SWAP the Mth valueand ith value
                        end for
 
 
证明:
 
每次都是以 k/i 的概率来选择 
例: k=1000的话, 从1001开始作选择,1001被选中的概率是1000/1001,1002被选中的概率是1000/1002,与我们直觉是相符的。 
 
接下来证明: 
     假设当前是i+1, 按照我们的规定,i+1这个元素被选中的概率是k/i+1,也即第 i+1 这个元素在蓄水池中出现的概率是k/i+1 
     此时考虑前i个元素,如果前i个元素出现在蓄水池中的概率都是k/i+1的话,说明我们的算法是没有问题的。 
    
对这个问题可以用归纳法来证明:k < i <=N 
   1.当i=k+1的时候,蓄水池的容量为k,第k+1个元素被选择的概率明显为k/(k+1), 此时前k个元素出现在蓄水池的概率为 k/(k+1), 很明显结论成立。
   2.假设当 j=i 的时候结论成立,此时以 k/i 的概率来选择第i个元素,前i-1个元素出现在蓄水池的概率都为k/i。  
      证明当j=i+1的情况: 
      即需要证明当以 k/i+1 的概率来选择第i+1个元素的时候,此时任一前i个元素出现在蓄水池的概率都为k/(i+1). 
前i个元素出现在蓄水池的概率有2部分组成, ①在第i+1次选择前得出现在蓄水池中,②得保证第i+1次选择的时候不被替换掉 
       ①.由2知道在第i+1次选择前,任一前i个元素出现在蓄水池的概率都为k/i 
       ②.考虑被替换的概率:   
首先要被替换得第 i+1 个元素被选中(不然不用替换了)概率为 k/i+1,其次是因为随机替换的池子中k个元素中任意一个,所以不幸被替换的概率是 1/k,故 
       前i个元素中任一被替换的概率 = k/(i+1) * 1/k = 1/i+1 
       则没有被替换的概率为:   1 - 1/(i+1) = i/i+1 
综合① ②,通过乘法规则 
得到前i个元素出现在蓄水池的概率为 k/i * i/(i+1) = k/i+1 
  故证明成立
 

你可能感兴趣的:(编程)