我们用 G G G代表图,图是由结点和边组成,即: G = ( V , E ) G = (V,E) G=(V,E),其中 V V V代表结点的结合, E E E代表边的结合。
例如上图 G G G中:
在CRF中,每一个结点代表一个随机变量,每条边代表变量之间的一种依赖关系。在CRF中,只研究无向图,也就是边上没有箭头。
在马尔科夫随机场中,随机变量(结点)需要满足以下三个性质,即成对的马尔科夫性、局部的马尔科夫性、全局的马尔科夫性,接下来依次介绍。
如图,假设随机变量 v v v和随机变量 w w w之间是没有关系的(也就是 v v v和 w w w之间没有边直接相连),其他的除了 v v v和 w w w之外的随机变量,用 o o o来表示。那么成对的马尔科夫性就可以表示成以下的公式:
P ( Y v , Y w ∣ Y o ) = P ( Y v ∣ Y o ) ⋅ P ( Y w ∣ Y o ) P(Y_{v},Y_{w} | Y_{o}) = P(Y_{v} | Y_{o}) · P(Y_{w} | Y_{o}) P(Yv,Yw∣Yo)=P(Yv∣Yo)⋅P(Yw∣Yo)在随机变量 o o o的条件下 v 和 w v和w v和w的联合概率等于在 o o o的条件下 v v v的概率乘以在 o o o的条件下 w w w的概率。也就是说随机变量 v v v和随机变量 w w w在随机变量 o o o的条件下,是相互独立的,因为它们没有边直接相连,这就是成对马尔科夫性的意思。
如图,假设随机变量 v v v和随机变量 o o o之间是没有关系的(也就是 v v v和 o o o之间没有边直接相连),其他的除了 v v v和 o o o之外的随机变量是 w w w。那么局部的马尔科夫性就可以表示成以下的公式:
P ( Y v , Y o ∣ Y w ) = P ( Y v ∣ Y w ) ⋅ P ( Y o ∣ Y w ) P(Y_{v},Y_{o} | Y_{w}) = P(Y_{v} | Y_{w}) · P(Y_{o} | Y_{w}) P(Yv,Yo∣Yw)=P(Yv∣Yw)⋅P(Yo∣Yw)在随机变量 w w w的条件下 v 和 o v和o v和o的联合概率等于在 w w w的条件下 v v v的概率乘以在 w w w的条件下 o o o的概率。也就是说随机变量 v v v和随机变量 o o o在随机变量 w w w的条件下,是相互独立的,因为它们没有边直接相连,这就是局部马尔科夫性的意思。
如图,可以看到 A A A集合的随机变量 a 1 a_{1} a1、 a 2 a_{2} a2与 B B B集合的随机变量 b 1 b_{1} b1、 b 2 b_{2} b2、 b 3 b_{3} b3没有任何关系,也就是 A A A和 B B B中的随机变量彼此之间没有边直接相连,被 C C C在中间隔开了。那么全局的马尔科夫性就可以表示成以下的公式:
P ( Y A , Y B ∣ Y C ) = P ( Y A ∣ Y C ) ⋅ P ( Y B ∣ Y C ) P(Y_{A},Y_{B} | Y_{C}) = P(Y_{A} | Y_{C}) · P(Y_{B} | Y_{C}) P(YA,YB∣YC)=P(YA∣YC)⋅P(YB∣YC)在随机变量 C C C的条件下 A 和 B A和B A和B的联合概率等于在 C C C的条件下 A A A的概率乘以在 C C C的条件下 B B B的概率。也就是说随机变量 A A A和随机变量 B B B在随机变量 C C C的条件下,是相互独立的,因为它们没有边直接相连,这就是全局马尔科夫性的意思。
如果一个图 G G G中的随机变量(结点)满足以上三个性质,则称之为概率无向图模型,也叫做马尔科夫随机场。
(以上三个性质可以相互推导)
在一个无向图中,任意两个随机变量,它们之间都有边相连,这个图就称为一个团。例如:
以上的图中存在的团有:
我们发现 Y 1 和 Y 4 Y_{1}和Y_{4} Y1和Y4构不成团,它们之间没有边相连,同理 Y 1 Y 2 Y 3 Y 4 Y_{1}Y_{2}Y_{3}Y_{4} Y1Y2Y3Y4也构不成团,也是因为 Y 1 和 Y 4 Y_{1}和Y_{4} Y1和Y4之间没有边相连。
最大团定义:一个团中随机变量数目已经是最多的,如果再加一个随机变量,它就不能再构成一个团了。
上面的例子的最大团就是 ( Y 1 , Y 2 , Y 3 ) ( Y 2 , Y 3 , Y 4 ) (Y_{1},Y_{2},Y_{3})(Y_{2},Y_{3},Y_{4}) (Y1,Y2,Y3)(Y2,Y3,Y4) 2个, ( Y 1 , Y 2 , Y 3 ) (Y_{1},Y_{2},Y_{3}) (Y1,Y2,Y3)中如果加入 Y 4 Y_{4} Y4,便构不成团了, Y 1 和 Y 4 Y_{1}和Y_{4} Y1和Y4之间没有边相连,所以只能是 ( Y 1 , Y 2 , Y 3 ) (Y_{1},Y_{2},Y_{3}) (Y1,Y2,Y3)。
概率无向图模型的联合概率分布可分解为在最大团上的随机变量函数 ψ ( ) \psi() ψ()的乘积,表示为以下形式:
P ( Y ) = 1 Z ⋅ ∏ C ψ C ( Y C ) P(Y) = \dfrac{1}{Z} · \prod_{C} \psi_{C}(Y_{C}) P(Y)=Z1⋅C∏ψC(YC)
设 X 和 Y X和Y X和Y是随机变量, P ( Y ∣ X ) P(Y | X) P(Y∣X)是给定 X X X的条件下 Y Y Y的条件概率分布,若随机变量 Y Y Y构成一个由无向图 G = ( V , E ) G = (V,E) G=(V,E)表示的马尔科夫随机场,也就满足3个性质,如图:
若以下公式
P ( Y v ∣ X , Y w , w ≠ v ) = P ( Y v ∣ X , Y w , w ≈ v ) P(Y_{v} | X,Y_{w},w\neq v) = P(Y_{v} | X,Y_{w},w\approx v) P(Yv∣X,Yw,w=v)=P(Yv∣X,Yw,w≈v)
对任意的随机变量 v v v成立,则称 P ( Y ∣ X ) P(Y | X) P(Y∣X)为条件随机场。
等式的意思就是, v v v的条件概率分布在以下两个条件中,随机变量的概率分布是一样的
补充:
很显然,我们发现以上的公式用到了局部的马尔科夫性如下: P ( Y v , Y o ∣ Y w ) = P ( Y v ∣ Y w ) ⋅ P ( Y o ∣ Y w ) P(Y_{v},Y_{o} | Y_{w}) = P(Y_{v} | Y_{w}) · P(Y_{o} | Y_{w}) P(Yv,Yo∣Yw)=P(Yv∣Yw)⋅P(Yo∣Yw)上面公式中 v 和 o v和o v和o条件独立,也就是两者没有边直接相连,看图也可以看出来,这样我们就能推出来:
P ( Y v ∣ Y w , Y o ) = P ( Y v ∣ Y w ) P(Y_{v} | Y_{w},Y_{o}) = P(Y_{v} | Y_{w}) P(Yv∣Yw,Yo)=P(Yv∣Yw)
因为 v 和 o v和o v和o条件独立,所以求 v v v的概率去掉 o o o条件不会产生任何影响。 Y w , Y o Y_{w},Y_{o} Yw,Yo条件并在一起就是不是 v v v随机变量的情况下 v v v的概率就等于只与 v v v相连的随机变量的情况下 v v v的概率。
设 X = ( X 1 , X 2 , . . . , X n ) 表 示 观 测 序 列 , Y = ( Y 1 , Y 2 , . . . , Y n ) X = (X_{1},X_{2},...,X_{n})表示观测序列,Y=(Y_{1},Y_{2},...,Y_{n}) X=(X1,X2,...,Xn)表示观测序列,Y=(Y1,Y2,...,Yn)表示状态序列, X Y X Y XY均为线性链表示的随机变量序列,若给定随机变量序列 X X X的条件下,随机变量序列 Y Y Y的条件概率分布 P ( Y ∣ X ) P(Y | X) P(Y∣X)构成条件随机场,即满足马尔科夫性质:
P ( Y i ∣ X , Y 1 , Y 2 , . . . , Y n ) = P ( Y i ∣ X , Y i − 1 , Y i + 1 ) P(Y_{i} | X,Y_{1},Y_{2},...,Y_{n}) = P(Y_{i} | X,Y_{i-1},Y_{i+1}) P(Yi∣X,Y1,Y2,...,Yn)=P(Yi∣X,Yi−1,Yi+1)则称 P ( Y ∣ X ) P(Y | X) P(Y∣X)为线性条件随机场。
一般研究的序列标注任务,不说明这个链是什么的情况下,默认指的就是线性条件随机场。
以下是线性条件随机场的参数化形式,设 P ( Y ∣ X ) P(Y | X) P(Y∣X)为线性条件随机场,则在随机变量 X X X取 x x x的条件下,随机变量 Y Y Y取 y y y的条件概率具有以下形式:
P ( y ∣ x ) = 1 Z ( x ) ⋅ e x p ( ∑ i , k λ k ⋅ t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l ⋅ s l ( y i , x , i ) ) P(y | x) = \dfrac{1}{Z(x)} · exp(\sum_{i,k}\lambda_{k} · t_{k}(y_{i-1},y_{i},x,i) + \sum_{i,l}\mu_{l} · s_{l}(y_{i},x,i)) P(y∣x)=Z(x)1⋅exp(i,k∑λk⋅tk(yi−1,yi,x,i)+i,l∑μl⋅sl(yi,x,i)) Z ( x ) = ∑ y e x p ( ∑ i , k λ k ⋅ t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l ⋅ s l ( y i , x , i ) ) Z(x) = \sum_{y} exp(\sum_{i,k}\lambda_{k} · t_{k}(y_{i-1},y_{i},x,i) + \sum_{i,l}\mu_{l} · s_{l}(y_{i},x,i)) Z(x)=y∑exp(i,k∑λk⋅tk(yi−1,yi,x,i)+i,l∑μl⋅sl(yi,x,i))
设有一标注问题,输入观测序列为 X = ( X 1 , X 2 , X 3 ) X=(X_{1},X_{2},X_{3}) X=(X1,X2,X3),输出标记序列为 Y = ( Y 1 , Y 2 , Y 3 ) Y=(Y_{1},Y_{2},Y_{3}) Y=(Y1,Y2,Y3), Y 1 , Y 2 , Y 3 Y_{1},Y_{2},Y_{3} Y1,Y2,Y3取值于y = { 1, 2},
假定特征函数的值都为1,即 t 1 = t 2 = . . . = t 5 = 1 t_{1}=t_{2}=...=t_{5}=1 t1=t2=...=t5=1, s 1 = s 2 = s 3 = s 4 = 1 s_{1}=s_{2}=s_{3}=s_{4}=1 s1=s2=s3=s4=1
已知条件:
状态转移特征:
观测状态特征:
由已知条件,状态转移特征有5个,观测状态特征有4个,对给定的观测序列 X X X,求标记序列为 y = ( y 1 , y 2 , y 3 ) = ( 1 , 2 , 2 ) y=(y_{1},y_{2},y_{3})=(1,2,2) y=(y1,y2,y3)=(1,2,2)的非规范化条件概率(也就是没有 Z ( x ) Z(x) Z(x)这一项), ∝ \propto ∝代表近似:
P ( y ∣ x ) ∝ e x p ( ∑ k = 1 5 λ k ⋅ ∑ i = 2 3 ⋅ t k ( y i − 1 , y i , x , i ) + ∑ l = 1 4 μ l ⋅ ∑ i = 1 3 ⋅ s l ( y i , x , i ) ) P(y | x) \propto exp(\sum_{k=1}^{5}\lambda_{k} · \sum_{i=2}^{3}· t_{k}(y_{i-1},y_{i},x,i) + \sum_{l=1}^{4}\mu_{l} · \sum_{i=1}^{3} · s_{l}(y_{i},x,i)) P(y∣x)∝exp(k=1∑5λk⋅i=2∑3⋅tk(yi−1,yi,x,i)+l=1∑4μl⋅i=1∑3⋅sl(yi,x,i))
我们找到所有满足序列 ( 1 , 2 , 2 ) (1,2,2) (1,2,2)的情况:
当 i = 2 , y 1 = 1 , y 2 = 2 , k = 1 时 i=2,y_{1}=1,y_{2}=2,k=1时 i=2,y1=1,y2=2,k=1时: 1 · 1 = 1
当 i = 3 , y 2 = 2 , y 3 = 2 , k = 5 时 i=3,y_{2}=2,y_{3}=2,k=5时 i=3,y2=2,y3=2,k=5时: 0.2 · 1 = 0.2
当 i = 1 , y 1 = 1 , l = 1 时 i=1,y_{1}=1,l=1时 i=1,y1=1,l=1时: 1 · 1 = 1
当 i = 2 , y 2 = 2 , l = 2 时 i=2,y_{2}=2,l=2时 i=2,y2=2,l=2时: 0.5 · 1 = 0.5
当 i = 3 , y 3 = 2 , l = 4 时 i=3,y_{3}=2,l=4时 i=3,y3=2,l=4时: 0.5 · 1 = 0.5
所有情况加起来:1+0.2+1+0.5+0.5 = 3.2
P ( y ∣ x ) ∝ e x p ( 3.2 ) P(y | x) \propto exp(3.2) P(y∣x)∝exp(3.2)
( Y 1 , Y 2 , Y 3 ) (Y_{1},Y_{2},Y_{3}) (Y1,Y2,Y3)分别都有{1,2}两种可取值,所以总共有2·2·2=8种取值方式,将每种取值的情况 P ( y ∣ x ) P(y | x) P(y∣x)加起来就是 Z ( x ) Z(x) Z(x),然后代入公式
P ( y ∣ x ) = 1 Z ( x ) ⋅ e x p ( ∑ i , k λ k ⋅ t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l ⋅ s l ( y i , x , i ) ) P(y | x) = \dfrac{1}{Z(x)} · exp(\sum_{i,k}\lambda_{k} · t_{k}(y_{i-1},y_{i},x,i) + \sum_{i,l}\mu_{l} · s_{l}(y_{i},x,i)) P(y∣x)=Z(x)1⋅exp(i,k∑λk⋅tk(yi−1,yi,x,i)+i,l∑μl⋅sl(yi,x,i))中,便得到条件随机场的最终的结果。