回顾如下公式,既然对于 α ( i , j ) \alpha(i,j) α(i,j)我们将之理解为从一条马氏链过渡到另一条马氏链的跳转率(也作接受率),并且实际操作中是通过物理过程:从均匀分布中抽样这个动作来实现的。那么式中的 q ( i , j ) q(i,j) q(i,j),作为转移矩阵中的一个点,它也是一个取值于(0,1)的概率值,它的作用形式是怎样的?
p ( i ) q ( i , j ) α ( i , j ) = p ( j ) q ( j , i ) α ( j , i ) p(i)q(i,j)\alpha(i,j)=p(j)q(j,i)\alpha(j,i) p(i)q(i,j)α(i,j)=p(j)q(j,i)α(j,i)
回顾实际采样过程:
其中b-1步中获得的样本 y y y是从条件分布 q ( x ∣ x t ) q(x|x_t) q(x∣xt)中随机抽样的。因此实现 q ( i , j ) q(i,j) q(i,j)发生作用的物理过程就是在这一步中所进行的随机抽样。
为什么在解读 α ( i , j ) \alpha(i, j) α(i,j)的时候要把它理解为一个物理过程?
这实际上是要理解概率之于样本或者抽样过程的关系。
由于抽样过程的结果是实实在在的样本,它并不是一个概率值,例如:
“于是每天携带一块秒表,进门前按下并读取毫秒数。如果数值小于0.613放心大胆进门,否则等15分钟再按一次。”
如何理解拒绝跳转这一现象?我们知道如果发生一次拒绝跳转,就把上一次抽样结果当做本次抽样结果放到抽样链里去。相当于该样本重复了一次,那么在最后得到的样本中是否要去除这些重复的样本(或者说只取连续游程中的第一个)?
假设状态集合为 S = [ s 1 , s 2 , s 3 ] S=[s_1, s_2, s_3] S=[s1,s2,s3],满足细致平稳条件的 Q ′ Q\prime Q′的矩阵结构如下式所示,可知由于乘以 α ( i , j ) \alpha(i,j) α(i,j)而丢失的概率质量全部转移到了对角线上,相当于放大了状态转移到自己的概率。而这会降低马氏链收敛到稳态的速度。
Q ′ = Q ⋅ A = { 1 − ∑ j = 1 3 p ( 1 , j ) α ( 1 , j ) p ( 1 , 2 ) α ( 1 , 2 ) p ( 1 , 3 ) α ( 1 , 3 ) p ( 2 , 1 ) α ( 2 , 1 ) 1 − ∑ j = 1 3 p ( 2 , j ) α ( 2 , j ) p ( 2 , 3 ) α ( 2 , 3 ) p ( 3 , 1 ) α ( 3 , 1 ) p ( 3 , 2 ) α ( 3 , 2 ) 1 − ∑ j = 1 3 p ( 3 , j ) α ( 3 , j ) } Q\prime=Q\cdot A= \\ \left\{ \begin{matrix} 1-\sum_{j=1}^3 p(1,j)\alpha(1,j) & p(1,2)\alpha(1,2) & p(1,3)\alpha(1,3) \\ p(2,1)\alpha(2,1) & 1-\sum_{j=1}^3 p(2,j)\alpha(2,j) & p(2,3)\alpha(2,3) \\ p(3,1)\alpha(3,1) & p(3,2)\alpha(3,2) & 1-\sum_{j=1}^3 p(3,j)\alpha(3,j) \end{matrix} \right\} Q′=Q⋅A=⎩⎪⎨⎪⎧1−∑j=13p(1,j)α(1,j)p(2,1)α(2,1)p(3,1)α(3,1)p(1,2)α(1,2)1−∑j=13p(2,j)α(2,j)p(3,2)α(3,2)p(1,3)α(1,3)p(2,3)α(2,3)1−∑j=13p(3,j)α(3,j)⎭⎪⎬⎪⎫
假设t-1步链上的样本为 s ( t − 1 ) = s 1 s^{(t-1)}=s_1 s(t−1)=s1,同时t步已抽取样本 s t = s 2 s^t=s_2 st=s2,则此时 Q ′ ∣ s t = s 2 Q\prime|s^t=s_2 Q′∣st=s2具有如下形式,由下式可知这就是跳转的真实过程。
Q ′ ∣ ( s ( t − 1 ) = s 1 , s t = s 2 ) = ( Q ⋅ A ) ∣ ( s ( t − 1 ) = s 1 , s t = s 2 ) Q\prime|(s^{(t-1)} = s_1,s^t=s_2)=(Q\cdot A)|(s^{(t-1)} = s_1,s^t=s_2) Q′∣(s(t−1)=s1,st=s2)=(Q⋅A)∣(s(t−1)=s1,st=s2)
= { ( 1 − ∑ j = 1 3 p ( 1 , j ) α ( 1 , j ) ) ∣ t ( p ( 1 , 2 ) α ( 1 , 2 ) ) ∣ t ( p ( 1 , 3 ) α ( 1 , 3 ) ) ∣ t … … … … … … } = \left\{ \begin{matrix} (1-\sum_{j=1}^3 p(1,j)\alpha(1,j))|_t & (p(1,2)\alpha(1,2))|_t & (p(1,3)\alpha(1,3))|_t \\ \dots & \dots & \dots \\ \dots & \dots & \dots \end{matrix} \right\} \\ =⎩⎨⎧(1−∑j=13p(1,j)α(1,j))∣t……(p(1,2)α(1,2))∣t……(p(1,3)α(1,3))∣t……⎭⎬⎫
= { 1 − p ( 1 , 2 ) α ( 1 , 2 ) p ( 1 , 2 ) α ( 1 , 2 ) 0 … … … … … … } =\left\{ \begin{matrix} 1-p(1,2)\alpha(1,2) & p(1,2)\alpha(1,2) & 0 \\ \dots & \dots & \dots \\ \dots & \dots & \dots \end{matrix} \right\} =⎩⎨⎧1−p(1,2)α(1,2)……p(1,2)α(1,2)……0……⎭⎬⎫
如何确定Burn-In过程的长度,即:该舍弃多少次抽样?
视问题复杂度,由于 α ( i , j ) \alpha(i,j) α(i,j)的存在延长了抽样过程中马氏链收敛到稳态时间。