随机洗牌算法整理

在游戏里面有各种“随机”的需求,比如从n个用户里面随机给m个发奖励。那么,要如何实现呢?简单的来说,可以调一个stl的函数来实现,伪代码如下:

vector foo(vector & player, int m)
{
  std::random_shuffle(players.begin(), players.end());

  vector result;
  for (size_t i = 0; i < m; i++)
  {
      result.push_back(players[i]);
  }
  return result;
}

那shuffle背后是怎么实现的呢?或者说如何设计高效并且保证随机概率是相同的洗牌算法呢?

1. 不带权重的随机洗牌算法
  • 最笨的方法
    从数组里面随机拿出两个元素,进行交换。完成一次洗牌。不停的重复以上过程。重复k次。当k足够大的时候,就洗均匀了。这个方法没什么好说的,除了简单以外就全是缺点了。

  • Yates洗牌
    这个方法是一个很古老的方法,非常好理解。思路是是每次从数组里面随机抽一个元素,放到另外的结果集中。然后不停的重复上述过程,直到抽出m个。但是,由于这个方法要每次对数组的元素进行删除,所以,时间复杂度为O(m*n) 。

  • knuth洗牌 (高德纳洗牌)

算法的思路是,从头开始遍历数组,对于下标是i的元素,从i到n之间随机出一个下标,对这个元素进行交换。

伪代码的流程是:

for i in (0, n) 
    从i 到 n随机出一个数j
    交换a[j] 和 a[i]

知乎上有个很有意思的问题有哪些惊艳你的算法?,也提到了这个洗牌算法。

有哪些算法惊艳到了你? - 刘宇波的回答 - 知乎
https://www.zhihu.com/question/26934313/answer/743798587


小结:
knuth算法保留了原数组的所有元素,仅改变了元素的顺序,时间复杂度为O(m)。


2. 带权重的随机洗牌算法

上述讨论的问题是“如何公平的从长度是n的数组里面随机出m个”,这里的假设是每个元素被随机出来的概率是相同的。

那问题再复杂些,希望实现“非公平抽奖”,比如:一个集合里有 n 个元素,每个元素有不同的权重,现在要不放回地随机抽取 m 个元素,每个元素被抽中的概率为元素的权重占总权重的比例。

  • 朴素带权重抽样方法

简化下问题模式,假设权重的和为1,只抽一个人获奖m=1。比如 :a,b,c,d 的权重分别是 0.1,0.3,0.2,0.4,从里面选一个中奖。

那这个就很简单了,从0~1之间随机一个数,这个数落在谁的区间上,就算谁中奖。

|-0.1-|---0.3---|--0.2--|----0.4----|
   ^       ^        ^         ^
   a       b        c         d

数学的原理很简单,可以理解为 上面的线段上随机出一个数字,谁占的长度多(概率大就是长度多),那么谁中奖的概率就大。

刚才是问题的简化版本 m=1(只有一个人中奖),如果希望是m=2的话,就重复上述过程m次。当有人抽到了,就把它移除出来,然后再重复。

# m=1只有一个人抽奖的情况
# weight_data 的数据类型为 dict
def random_weight(weight_data):
    total = sum(weight_data.values())    # 权重求和
    ra = random.uniform(0, total)   # 在0与权重和之前获取一个随机数
    curr_sum = 0
    ret = None
    keys = weight_data.keys()        # 使用Python3.x中的keys
    for k in keys:
        curr_sum += weight_data[k]             # 在遍历中,累加当前权重值
        if ra <= curr_sum:          # 当随机数<=当前权重和时,返回权重key
            ret = k
            break
    return ret
# 当需要 m > 1的时
def foo(data, N):
    results = []
    i = 0
    while i < N:
        m = random_weight(data)   # 重复n次
        if m in results:
            continue
        results.append(m)
        i = i+1
    return results

小结:
如果要选取 m 个元素,则可以按上面的方法先选取一个,将该元素从集合中去除,再反复按上面的方法抽取剩余的元素。这种方法的复杂度是 O(mn),并且将元素从集合中删除其实不太方便实现。

对于带权重抽样,有两个更好的方法来解决朴素带权重抽样的一些弊端,具体的细节在这里:

  • A-Res 算法论文 Weighted Random Sampling
  • A-ExpJ 算法

参考:

  • https://lotabout.me/2018/Weighted-Random-Sampling/

你可能感兴趣的:(随机洗牌算法整理)