机器学习中的随机过程

1.概述

        随机过程是处理包含时间以及数据序列的概率模型。比起一般的概率模型,随机过程更强调数据序列间的相关关系、长期均值和边界事件。随机过程X(t) 是一组依赖于实参数 t 的随机变量,t一般具有时间的含义。在机器学习中,主要有四种随机过程经常用到,分别是伯努利过程、泊松过程、高斯过程、马尔可夫过程,本文对其做基本的总结。

2.伯努利过程

伯努利过程是考虑到达时间是离散的情形,相邻时间是服从几何分布。

2.1 独立性和无记忆性

        伯努利过程中的独立性假设,暗含着无记忆性(无论过去发生了什么,都不能对未来试验的结果提供任何信息)。现在假设伯努利过程运行了n次,得到了观测数据X1,...,Xn。未来试验序列X_{n+1},X_{n+2},...仍然是独立的伯努利试验,形成新的伯努利过程。

        进一步,这些未来试验与过去的试验都是独立的。所以我们可以得出这样的结论:从任意一个时刻开始,未来也可以用相同的伯努利过程来建模,而且与过去相互独立。人们称这种伯努利过程性质为重新开始。
  注意到伯努利过程首次成功时试验的总次数T服从几何分布。假设我们已经观测过程 n 步,但是没有“成功”的结果出现,那么人们对直到出现“成功”的结果进行余下的实验次数T-n应该是与过去的过程是独立的,而且构成一个“重新开始”的伯努利过程。所以,直到出现“成功”的结果的未来试验次数仍然是相同的几何分布,即:

                \mathrm{P}(T-n=t | T>n)=(1-p)^{t-1} p=\mathrm{P}(T=t), \quad t=1,2, \cdots

  这就是伯努利过程的无记忆性质,也可以通过条件概率来推导。

2.2 相邻到达间隔时间

  与伯努利过程相关的一个重要的随机变量就是第 k 次成功(或到达)的时间,记为Y_k。与之相关的变量是第 k 次相邻到达的间隔时间,记为T_k,即:

                                        T_{1}=Y_{1}, \quad T_{k}=Y_{k}-Y_{k-1}, \quad k=2,3, \cdots

  如下图所示,同时还满足:

                ​​​​​​​        ​​​​​​​                                        Y_{k}=T_{1}+\cdots+T_{k}

机器学习中的随机过程_第1张图片

  我们己经得到首次成功的时间 T_1服从参数为p 的几何分布,有了第一次在时间T_1 成功之后,未来是一个新的伯努利过程。利用重新开始的原理,下次成功所需的实验次数几乎与T_1有相同的分布。进一步,推广这种方法,我们可以给伯努利过程一个等价的另一种描述方法,这种描述方法有时更方便:

  • 开始于一串相互独立的,参数为p 的几何分布随机变量序列T1,T2,...
  • 观测成功(或到达)的时间为T_1,T_1+T_2,T_1+T_2+T_3,\cdots

2.3 阶数为k的帕斯卡分布

  我们考虑一下第k 次成功(到达)的时间Y_k 的时间,它等同于 k 个独立同分布,服从几何分布的随机变量之和,即\large Y_{k}=T_{1}+\cdots+T_{k}\,因此\large Y_k的期望和方差分别为:

        ​​​​​​​        \large \begin{array}{c}{\mathrm{E}\left[Y_{k}\right]=\mathrm{E}\left[T_{1}\right]+\cdots+\mathrm{E}\left[T_{k}\right]=\frac{k}{p}} \\ {\operatorname{var}\left[Y_{k}\right]=\operatorname{var}\left[T_{1}\right]+\cdots+\operatorname{var}\left[T_{k}\right]=\frac{k(1-p)}{p^{2}}}\end{array}

  \large Y_k 的分布列也可以计算出来了,即:

                \large p_{Y_{k}}(t)=\left( \begin{array}{c}{t-1} \\ {k-1}\end{array}\right) p^{k}(1-p)^{t-k}, \quad t=k, k+1, \cdots

  这就是阶数为k的帕斯卡分布(Pascal Distribution)。
  它的分布列的证明过程其实也很容易,首先Y_k\geq k是肯定成立的,对t\geq k,事件{Y_k=t}发生当且仅当下面两个事件同时发生:

        a) 事件A:第t次试验成功了,P(A)=p

        b)  事件B:在前t-1次试验中,恰好成功了k-1​​​​​​​ 次

        c)     \mathrm{P}(B)=\left( \begin{array}{l}{t-1} \\ {k-1}\end{array}\right) p^{k-1}(1-p)^{t-k}\)

  因为两个事件是相互独立的,所以我们可以得到:

        p_{Y_{k}}(t)=\mathrm{P}\left(Y_{k}=t\right)=\mathrm{P}(A \cap B)=\mathrm{P}(A) \mathrm{P}(B)=\left( \begin{array}{c}{t-1} \\ {k-1}\end{array}\right) p^{k}(1-p)^{t-k}

2.4 伯努利过程的分裂与合并

  所谓伯努利过程的分裂是指,记每次到达的概率为p,每当有一个到达时,我们选择或者保留下来(概率为q)。或者抛弃(概率为1-q),如下图所示,假设保留还是抛弃的决定在不同的到达时间时是相互独立的,如果我们集中研究保留下来的过程,那么可以看到,保留下来的过程仍然是个伯努利过程。在每个时间瞬间,发生一次被留下到达的概率是pq,而且跟其他的瞬间是相互独立的。相同的原因,被抛弃的到达过程也是伯努利过程,在每个瞬间发生被抛弃的到达的概率是p(1-q)

        ​​​​​​​        机器学习中的随机过程_第2张图片

  相反的,如果有2个独立的伯努利过程(参数分别是 p 和 q ),我们采取如下方法进行合并。一个到达被收录到合并的过程中,当且仅当在这两个原始的过程中,至少有一个是到达状态.那么这个事件发生的概率是1-(1-p)(1-q)=p+q-pq。既然不同的时间瞬间:两个过程是相互独立的,合并后的不同的时间瞬间仍然是独立的,所以合并后的过程仍是伯努利过程,每次成功的概率是p+q-pq,示意图见如下图所示:

机器学习中的随机过程_第3张图片

        伯努利过程(或其他过程)的分裂和合并在实际中经常发生比如,两个机器工作中心可能有零部件到达流水线,然后把每个零部件随机分开到某一个机器。反之,一个机器可能面临许多不同类型的零部件,然后合并成一条流水线。

3.泊松过程

泊松过程是一系列离散事件的模型,事件之间的平均时间是已知的(确定的),但事件发生的确切时间是随机的。一个事件的到来与之前的事件无关(事件之间的等待时间是无记忆的)。例如,假设我们拥有一个网站,我们的内容交付网络(CDN)告诉我们,该网站平均每60天会发生一次故障,但一次故障并不影响下一次的概率。我们所知道的是故障之间的平均时间,这是一个泊松过程。

泊松过程符合以下标准(实际上许多以泊松过程为模型的现象并不完全符合这些标准)。

        a) 事件是相互独立的。一个事件的发生并不影响另一个事件发生的概率。

        b)平均速率(每个时间段的事件)是恒定的。

        c) 两个事件不可能在同一时间发生。

伯努利过程是一个离散过程,而泊松过程是连续过程。

4.高斯过程

高斯过程(Gaussian Process, GP)是概率论和数理统计中随机过程(stochastic process)的一种,是一系列服从正态分布的随机变量(random variable)在一指数集(index set)内的组合  。 高斯过程中任意随机变量的线性组合都服从正态分布,每个有限维分布都是联合正态分布,且其本身在连续指数集上的概率密度函数即是所有随机变量的高斯测度,因此被视为联合正态分布的无限维广义延伸 。高斯过程由其数学期望和协方差函数完全决定,并继承了正态分布的诸多性质。

5.马尔可夫过程

马尔可夫过程(Markov process)是一类随机过程。它的原始模型马尔可夫链,由俄国数学家A.A.马尔可夫于1907年提出。该过程具有如下特性:在已知目前状态 (现在)的条件下,它未来的演变 (将来)不依赖于它以往的演变 ( 过去 ) 。 例如森林中动物头数的变化构成--马尔可夫过程 。在现实世界中,有很多过程都是马尔可夫过程,如液体中微粒所作的布朗运动、传染病受感染的人数、车站的候车人数等,都可视为马尔可夫过程。关于该过程的研究,1931年A.H.柯尔莫哥洛夫在《概率论的解析方法》一文中首先将微分方程等分析的方法用于这类过程,奠定了马尔可夫过程的理论基础。

你可能感兴趣的:(#,机器学习,概率论)