随机游走算法

随机游走(Random Walk,缩写为 RW),又称随机游动或随机漫步,是一种数学统计模型,它是一连串的轨迹所组成,其中每一次都是随机的。它能用来表示不规则的变动形式,如同一个人酒后乱步,所形成的随机过程记录。因此,它是记录随机活动的基本统计模型

Random  Walk 是随机过程(Stochastic  Process)的一个重要组成部分,通常描述的是最简单的一维 Random  Walk 过程。下面给出一个例子来说明:考虑在数轴原点处有一只蚂蚁,它从当前位置(记为x(t) )出发,在下一个时刻( x(t+1))以 的概率向前走一步(即 x(t+1)= x(t)+1),或者以 的概率向后走一步(即 x(t+1)= x(t)-1),这样蚂蚁每个时刻到达的点序列 就构成一个一维随机游走过程。

  本质上 Random  Walk 是一种随机化的方法,在实际上生活中,例如醉汉行走的轨迹、花粉的布朗运动、证券的涨跌等都与 Random  Walk 有密不可分的关系。Random Walk已经被成功地应用到数学,物理,化学,经济等各种领域。当前研究者们已经开始将 Random  Walk 应用到信息检索图像分割等领域,并且取得了一定的成果,其中一个突出的例子就是 Brin 和 Page 利用基于 Random Walk 的 PageRank 技术创建了 Google 公司。

随机游走的形式有:

  1. 马尔可夫链或马可夫过程:一维随机游走也可以看作马尔可夫链,其状态空间由整数给出。
  2. 布朗运动
  3. 醉汉走路(drunkard’s walk)
  4. 莱维飞行(Lévy flight)

随机游走(random walk)矩阵可以看做是马尔科夫链的一种特例。

喝醉的酒鬼总能找到回家的路,喝醉的小鸟则可能永远也回不了家。

一维、二维随机游走过程中,只要时间足够长,我们最终总能回到出发点;

三维网格中随机游走,最终能回到出发点的概率只有大约 34%;

四维网格中随机游走,最终能回到出发点的概率是 19.3% ;

八维空间中,最终能回到出发点的概率只有 7.3% ;

定理是著名数学家波利亚(George Pólya)在 1921 年证明的。

物理意义

随机游走是现实生活中常见的一种模型:

气体分子的运动、滴入水中的墨水 、气味的扩散、醉汉行走轨迹、花粉的布朗运动、证券的涨跌、抛硬币…

  1. 物理学化学:Random Walk是扩散过程的基础模型。
  2. 统计领域:马尔可夫链蒙特卡罗(MCMC),解决近似计算问题。MCMC是解决近似计算问题一种重要方法,它能以比确定性算法快指数级的速度提供解决问题的最好随机方法,目前已经被广泛地应用在统计领域。 
  3. 信息检索:早期搜索引擎如Yahoo使用的是关键字匹配技术,性能容易受到关键词频率的欺骗,所以搜索效果不是很好。1998年Jon Kleinberg 提出了HITS算法,Sergey Brin 和 Larry Page 提出了 PageRank算法之后,搜索的正确率就得到了巨大的改观,这两种技术都是基于Random Walk。《通用化的PageRank公式推导》
  4. 经济学:证券的涨跌
     

维基百科

你可能感兴趣的:(统计分析,数据挖掘)