联合分布 & 条件分布 & 边缘分布

首先我们需要明确贝叶斯法则(Bayes’ Rule)。 
联合分布 & 条件分布 & 边缘分布_第1张图片
  接下来我们将讨论三种分布的概念:联合分布、边缘分布和条件分布。

联合分布

  很多情况下,我们对于几个变量同时的取值有关问题感兴趣,例如我们需要知道事件“ lntellegence = high 且Grade= A”的概率。分析这样的事件,则需要考虑两个随机变量的联合分布(joint distribution)。下图为联合分布的一个例子。 
联合分布 & 条件分布 & 边缘分布_第2张图片
  上图表示了随机变量  I,D,G  的一个联合分布,其中包含3个变量,分别是: I (学生智力,有0和1两个取值)、 D (试卷难度,有0和1两个取值)、 G (成绩等级,有1、2、3三个取值)。故而这三个离散的随机变量共有  2×2×3=12  种联合分布状态。 
  上表中我们可以读出系统取值为这 12 个联合分布状态中任一个的概率,例如: P(I=0,D=0,G=1)=0.126.

条件分布

   当对于一组随机变量,考虑其中某些变量取值特定值时,其余变量的分布是一种条件分布问题。可以看到,条件分布率就是在边缘分布率的基础上都加上“另一个随机变量取定某值”这个条件。简单来说,对于二维离散随机变量有 
    P(X=xi|Y=yj)=P(X=xi,Y=yj)P(Y=yj)
   为在  Y=yj  条件下  X  的条件分布率. (其中  i  为固定的),也称作该联合分布在  Y  上的条件分布。 
   
   回到上面的例子来看,下图中表是概率的联合分布,表中随便去掉所有包含某个值的行,就能对分布表进行缩减。例如可以去掉所有  G  不为 1 的行,这样就只剩下了 1、4、7、10 行,这样他们的概率之和就不为 1 了,所以需要重新标准化(Renormalization),从而推得原联合分布在  G  上的条件分布4。如图为推导过程。 
联合分布 & 条件分布 & 边缘分布_第3张图片
  剔除无关取值( G  不为 1 的行) 
联合分布 & 条件分布 & 边缘分布_第4张图片
  标准化得到的值 
联合分布 & 条件分布 & 边缘分布_第5张图片
  即得到之前的联合分布在变量 Gradeg)上的条件分布为上图右边的表格。 
   
  反之也可以把所有含有某个值得行相加,这就是接下来要讲的边缘化(Marginalization)。由此可得联合分布在变量   上的边缘分布如下图右表。 
联合分布 & 条件分布 & 边缘分布_第6张图片

边缘分布

  一旦定义了随机变量,我们就可以在能够用  X  描述的事件上考虑分布。这个分布通常称为随机变量  X  的边缘分布(marginal distribution) ,记为  P(X)  . 这时单独只考虑  X  的取值,与其它随机变量取什么值的概率无关了。 
   
  例如,在联合分布例子里, I  的边缘分布为: 
   P(I=0)=0.126+0.168+0.126+0.009+0.045+0.126.  
   P(I=1)=0.252+0.0224+0.0056+0.06+0.036+0.024.

一个例子区分三种分布

  为了避免混淆三种分布的定义,这里举一个最简单的例子。设  X,Y  的联合分布如下

X|Y (横轴是 Y 的取值,纵轴是 X 的取值) y1 y2 y3 P(X=xi)
x1 0.1 0.3 0.1 0.5
x2 0.2 0.2 0.1 0.5
P(Y=yj) 0.3 0.5 0.2  

  即两者的边缘分布

X x1 x2 两个表格的分割线 Y y1 y2 y3
  0.5 0.5 两个表格的分割线   0.3 0.5 0.2

  在  Y=y1  的条件下, X  的条件分布为 
   P(X=x1|Y=y1)=P(X=x1Y=y1)P(Y=y1)=0.10.3=13.  
   P(X=x2|Y=y1)=P(X=x2Y=y1)P(Y=y1)=0.20.3=23.

你可能感兴趣的:(机器学习)