题目:Given a singly linked list, return a random node's value from the linked list. Each node must have the same probability of being chosen.
Follow up:
What if the linked list is extremely large and its length is unknown to you? Could you solve this efficiently without using extra space?
起初想到这个题目就是计算长度,然后利用rand()函数来获取一个值,取该节点返回即可。
代码可以写成如下的样子,在Leetcode上是可以AC的。
/**
* Definition for singly-linked list.
* struct ListNode {
* int val;
* ListNode *next;
* ListNode(int x) : val(x), next(NULL) {}
* };
*/
class Solution {
public:
/** @param head The linked list's head.
Note that the head is guaranteed to be not null, so it contains at least one node. */
Solution(ListNode* head) {
listHead = head;
length = 0;
ListNode *p = head;
while(p != NULL)
{
p = p -> next;
length++;
}
}
/** Returns a random node's value. */
int getRandom() {
int randNo = rand() % length;
ListNode *p = listHead;
while(randNo != 0)
{
p = p -> next;
randNo--;
}
return p -> val;
}
private:
ListNode * listHead;
int length;
};
/**
* Your Solution object will be instantiated and called as such:
* Solution obj = new Solution(head);
* int param_1 = obj.getRandom();
*/
让我们重新回顾一下补充条件:
What if the linked list is extremely large and its length is unknown to you? Could you solve this efficiently without using extra space?
也就是说:当链表过于庞大时,如何在不利用额外空间的情况下,令获得各节点的概率依旧是均等的呢?
我们需要将链表理解为一个数据流,就需要使用到:水塘抽样算法的内容了。
问题描述:给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。
解决思路:上面这个问题,看起来十分复杂。所以首先进行一个归纳说明,将大问题变成小问题来解决。
1) 长度为1,只有一个数据,直接返回即可,此数据被返回的概率为1.
2)长度为2,当读取第一数据时,我们发现并不是最后一个数据,我们不能直接返回,因为数据流还没结束,继续读取,到第二数据的时候,发现已经结束。所以现在的问题就是等概率返回其中的一个,显然概率为0.5。所以此时我们可以生成一个0到1的随机数p,如果p小于0.5,返回第二个,如果大于0.5,返回第一个。显然此时两个数据被返回的概率是一样的。也就是说,在选第二个数的时候,以1/2的概率决定,是否要替换掉前一个数。
3)长度为3,我们可以事先分析得到,为了满足题意,需要保证每个数据返回的概率都是1/3。接下来分析数据流,首先读取第一个数据,然后在读取第二个数据,此时可以按2)处理,保留一个数据,每个数据显然为1/2。此时读取第三个数据,发现到尾部了,为了满足题意,此时需要一1/3的概率决定是否取此数据。现在分析前两个数是否也是以1/3的概率返回,如果是则总体都满足。数据1和数据2同时留下的概率为:1/2 *(1-1/3)= 1/3。1/2只在数据1和数据2pk时,能留下的概率,1-1/3指数据3不被留下的概率。所以,对长度为3的数据流,在读取第三个数据时,我们可以生成一个0到1的随机数p,如果p小于1/3,返回第三个数据,否则,返回前面两个pk留下的数据。也就是说,在选第二个数的时候,以1/3的概率决定,是否要替换掉前两个数字pk的结果。
由上面的分析,我们可以得出结论,在取第n个数据的时候,我们生成一个0到1的随机数p,如果p小于1/n,保留第n个数。大于1/n,继续保留前面的数。直到数据流结束,返回此数。
归纳证明:下面用数学归纳法证明此结论。
1)当n=1时,第一个元素以1/1的概率返回,符合条件。
2)假设当n=k时成立,即每个元素都以1/k的概率返回,先证明n=k+1时,是否成立。
对于最后一个元素显然以1/k+1的概率返回,符合条件,对于前k个数据,被返回的概率为1/k * (1- 1/k+1)=1/k+1,满足题意。
综上所述,结论成立。
问题扩展:如果要求最后返回的结果数目是k个,那么问题就是水塘抽样问题了。
有了对上文的理解,此处可以直接替换结论:只需把上面的1/n变为k/n即可。
在取第n个数据的时候,我们生成一个0到1的随机数p,如果p小于k/n,替换池中任意一个为第n个数。大于k/n,继续保留前面的数。直到数据流结束,返回此k个数。但是为了保证计算机计算分数额准确性,一般是生成一个0到n的随机数,跟k相比,道理是一样的。
问题证明:可以以同样的方法证明。
(1)初始情况k<=n,出现在水库中的k个元素的出现概率都是一致的,都是1。
(2)第一步。第一步就是指,处理第k+1个元素的情况。
分两种情况:元素全部都没有被替换;其中某个元素被第k+1个元素替换掉。
我们先看情况2:第k+1个元素被选中的概率是k/(k+1)(根据公式k/i),所以这个新元素在水库中出现的概率就一定是k/(k+1)(不管它替换掉哪个元素,反正肯定它是以这个概率出现在水库中)。下面来看水库中剩余的元素出现的概率,也就是1-P(这个元素被替换掉的概率)。水库中任意一个元素被替换掉的概率是:(k/k+1)*(1/k)=1/(k+1),意即首先要第k+1个元素被选中,然后自己在集合的k个元素中被选中。那它出现的概率就是1-1/(k+1)=k/(k+1)。可以看出来,旧元素和新元素出现的概率是相等的。
情况1:当元素全部都没有替换掉的时候,每个元素的出现概率肯定是一样的,这很显然。但具体是多少呢?就是1-P(第k+1个元素被选中)=1-k/(k+1)=1/(k+1)。
(3)归纳法:重复上面的过程,只要证明第i步到第i+1步,所有元素出现的概率是相等的即可。
上述内容,部分参考了以下的链接:
(1)http://blog.csdn.net/javastart/article/details/50610868
(2)http://blog.csdn.net/u012102306/article/details/52014234
谢谢!