概率图模型8:独立性

作者:孙相国

到目前为止,我们一直是把图模型看做是一种可以编码概率分布的数据结构。
我们可以用因子分解的方式表示一个高维特征空间的概率分布。
我们也可以把概率图看做是一些列的独立性集合,并且某个分布必须满足这些独立性。
这种观点更加深刻(你可以看一下我的第5篇博客《概率图模型4:贝叶斯网络》)

1 independence

关于独立性的介绍,我们曾在博文《深入浅出EM算法》中问大家做了详细的讲解,并且证明了一种的一些重要性质。本小结简要提一下即可,不会再做更多的讲述。你可以到上面的博文中,找到更详细的介绍。
For events α,β,Pαβ if:
P(α,β)=P(α)P(β)
P(α|β)=P(α) ,也等价于 P(β|α)=P(β)

需要说明的是,符号 表示满足条件,在读作“satisfied”; 表示独立。因此式子(1.1)读作:“P satisfies alpha’s independence of beta. ”
定义1说的是两个事件的联合概率等于各自概率的乘积。这是从概率分布的角度上来认识独立性的。
定义2说的从影响流动(参见上一篇博文)的角度来认识独立性的。if you tell me beta, it doesn’t affect my probability in alpha. So the probability of alpha given the information about beta is the same as the probability of alpha if you don’t give me that information.

同样的,刚才介绍的是对两个事件的独立性,你也可以把这个定义推广到随机变量中。
For random variables X,Y,PXY if:
P(X,Y)=P(X)P(Y)
P(X|Y)=P(X) ,也等价于 P(Y|X)=P(Y)

You can made this new statements in two different but equivalent form,the first is at a universal statement. So for example, you could read the first statement as saying, for every assignment little x and little y to the variables X and Y, we have that P(x,y)=P(x)P(y) .So you can think of it as a conjunction of lots of independent statements of the form over here. The second interpretation is as an expression over factors, that is, this one tells me that the factor over here which is the joint distribution over XY is actually a product of two lower dimensional factors ,one which a factor whose scope is X, and one is a factor whose scope is Y. These are all equivalent definitions but each of them has a slightly different intuition so it’s useful to recognize all of them.

2 conditional independence

For (sets of )random variables X,Y,Z,P(XY|Z) if:
P(X,Y|Z)=P(X|Z)P(Y|Z)
P(X|Y,Z)=P(X|Z) ,也等价于 P(Y|X,Z)=P(Y|Z)
当然,结合我们之前将的因子的定义,对于第一种方式,我们也可以看做是几个因子的乘积,因此有:
P(X,Y,Z)Φ1(X,Z)Φ2(Y,Z)
条件独立性的一个实际例子你可以在这里(《深入浅出EM算法》)

我们再来看一个更有趣的例子:
还记得我们上一篇博文说到的有效迹吗?我们知道,对于 XWY 来说, W 在没有观测到时,影响可以从 X 传到 Y ,这意味着, X Y 是独立的。但是如果我们观测到了 W ,那么这个时候 X 的影响就不能传到 Y ,这意味着 X Y 关于 W 是条件独立的。
与这个结构对应的一个实例是:

概率图模型8:独立性_第1张图片

imagine that you have that I give you two coins. And I’m telling you that one of those coins is fair, and the other one is biased. And it’s going to come up head 90% of the time. But they look the same. So now you have a process by which you first pick a coin out of my hand. And then you toss it twice. So this is which coin you pick. This is the two tosses. Now, let’s think about dependence and independence in this example

如果你不知道你选的是什么样的硬币,那么当你第一次投掷后结果是正面朝上,这样,从证据推理(参见上一篇博文)的角度来看,我们更有理由相信,这个硬币是biased的,因为the biased coin comes up heads 90% of the time.这样一来,对于第二次投递,我们更加愿意相信会是正面朝上。这就是第一次结果影响了我们对第二次结果的判断。这其中涉及到的推理模式有证据推理和因果推理。
如果你已经知道了你手中的硬币是fair,那么你对第二次投掷的猜测会去参考第一次的结果吗?不会!因为你已经知道硬币是什么样了,你可以直接从硬币这里获得推理第二次结果的全部信息。这就意味着,第一次结果的影响不会沿着路径传到第二次实验中。因此 (X1X2|Coin)

3 conditioning can lose independences

在1.2节中,我们通过一个实例 XWY 研究了设置某些条件后,原本不独立的两个随机变量可以变成条件独立。但是设置这些条件是有说道的,不是随便设定条件都能获得同样的结果。有时候反而会弄巧成拙。例如对于 V 形结构(参见前一篇博文): IGD ,我们从上一篇博文中知道,这不是一个有效迹,即当我们没有观测到 G 及其后代时候, I 的信息并不会传到 D 中(一门课考试难度和学生智商没啥关系)。但是如果我们观测到了 G ,那么这个结构中 I D 就可以流通影响了。(虽然一门课考试难度和学生智商没啥关系,但是我们知道这个学生这门课成绩很高,并且这门课很难,那我们更有理由相信他智商很高了)
这样说来,本来 I D 是独立的,结果因为我们conditioning on G ,变成了不独立了。这就叫做lose independences.
##1.4 独立性的一些性质
这部分内容,在之前的博文《深入浅出EM算法》中有过详细的介绍,你可以点击这里跳转到相应的部分。此处不再赘述。

你可能感兴趣的:(概率图模型,Dive,into,ML/DL)