浅析 rand7生成rand10 方法 之 思想篇(一)

【问题描述】

rand7是一个能生成1-7的随机数。要求利用rand7生成1-10的随机数。

【算法思想】

1.组合数学方法
第1次 1 2 3 4 5 6 7 之中用rand7取一个数
第2次从 2 3 4 5 6 7 8 之中取一个数
第3次从 3 4 5 6 7 8 9 之中取一个数
第4次从 4 5 6 7 8 9 10 之中取一个数
第5次从 5 6 7 8 9 10 1 之中取一个数
第6次从 6 7 8 9 10 1 2 之中取一个数
...
第10次从 10 1 2 3 4 5 6 之中用取一个数
1-10每个数字在上表中都出现了7次,共有70个数字,这样每个数字被命中的概率为1/10。
这里的关键词是"命中".
第11次重新循环,从 1 2 3 4 5 6 7 之中取一个数
第12次从 2 3 4 5 6 7 8 之中取一个数
......
按照这样的方法,1-10每个数字被命中的概率是均匀分布。而1-10次的数组,本质上是生成了所有1-10按照次序的一个轮换结构,也就是组合问题中的生成所有排列。(参见Knuth第4卷第2册(The Art Of Computer Programming, Volume4, Generating All Tuples and Permutations))在经过比较长的时间之后,就可以观察到均匀分布。事实上,任何随机数算法都需要经过比较长的过程才能观察出他的分布,而概率分布,是在一个统计意义上的概念。
由此还可以得出用m个随机数生成n个随机数的方法
1. 当m > n的时候,用舍去法,每次n个随机数,超过这个范围就舍弃,再来一次。
2. 当m < n的时候,用如上的方法建立m大小的数组,其中的数字在1到n按照次序循环轮换,这样n*m个循环之后,就可以得到均匀的n个随机数。

2. 同余循环法
上面这个方法,实际上等价于(rand7() + i)%10,i从0-9反复循环,而每次计算的余数恰好与上面的方法等价。也就是用利用同余的性质生成所有排列,这真是一个巧妙的想法!于是:
1. i从0到9反复循环
2. (rand7()+i)%10,产生0-9的随机数,等效与第一种组合法(只需要把上面表中的1-10改成0-9)
3. 再+1得到1-10的随机数
优化后只需要一行代码!
于是上面用m个随机数生成n个随机数的方法的,也有了更简洁的算法,步骤与此类似就不写了。

3. 舍去法

这个题在考试中大概是不让用舍去法的,因为他太平凡。但实际上舍入法也很有用,因此还是写出来,后面还会再提到舍入法。
1. 第一次用rand7取出1到5的随机数,记为a
2. 第二次用rand7取出1或2,记为b
3. 如果b = 1, 则c = a, 如果b = 2,则c = a + b
4. 返回c

4. . 连续随机变量的分布
本题的rand7是一个离散随机变量,只取1-7的整数。离散变量的缺点是在数学计算上不方便,因此可以转成连续随机变量。也就是从rand7生成1-7的连续均匀分布,获得1-10的均匀分布。虽然本题不适用这个方法,但是本题除了考试有用,在实际应用中不会出现,更多的方法是从一种分布变换到另外一种分布。
现在的答案很简单,从几何的角度上看,我们可以把[a,b]线段上的点按照一对一映射到另一个线段[c,d]上去,只需要做一个线性变换y=(x-a)/(b-a)*(d-c)+c. 那么,若rand()~U(a,b),则y=(rand()-a)/(b-a)*(d-c)+c~U(c,d),也就是如果rand()是a到b上的均匀分布,则y=(d-c)(x-a)/(b-a)+c是c到d上的均匀分布。对于本例rand10=(rand()-1)/6*9+1. 
这个定理还可以更强一些,f(x)是分段还是也可以,甚至只是一个覆盖(包括)就可以了。从符合一种分布的随机数生成另外一种分布的随机数是统计模拟的课题,其中有非常有趣的变换方法,例如,如果X是(0,1)上的均匀分布,则Y=-a*log(X)是指数分布。这些内容,参考《统计推断》,或者更进一步的材料。

5. 再谈舍入法
C语言的rand函数,可能是用了线性同余算法获得均匀分布,这类叫直接方法。舍去法也是非常重要的一类随机,用来生成各种分布的随机数,比如Metropolis算法,比较著名的还有Markov Chain Monte Carlo (MCMC)算法,这类方法可以看成是一个黑盒子,要求在算法内部通过几次运算很快收敛到一种概率分布,然后返回一个随机数。参见Casella & Berger统计推断(Statistical Inference)以及Kunth第2卷Seminumerical Algorithms, Random Numbers.

你可能感兴趣的:(随机数,rand)