概率图模型(probabilistic graphical model)是一类用图来表达变量相关关系的概率模型(是否独立)
大致分为两类
1)用有向无环图表示变量间的依赖关系,称为有向图模型或者 Bayesian network
2)用无向图表示变量之间的相关关系,成为无向图模型或者马尔可夫网(Markov network)
研究高维随机变量会造成一个问题——计算量巨大,
可以假设他们是相互独立的,彼此之间互不相干(朴素贝叶斯算法中),这种假设太强了,就假设它只与一个状态有关,其他状态无关(齐次马尔可夫假设),这种假设还是太强了,因此重新假设,将所有变量分为三个互不相交的集合 A,B,C,这样就得到了条件独立性假设(参考 概率图模型简要笔记(一)),具体分析如下
有向图模型的三种基本拓扑结果如下(tail→head)
1)head-head 形
因式分解形式: p ( a , b , c ) = p ( a ) ⋅ p ( b ) ⋅ p ( c ∣ a , b ) p(a,b,c) = p(a)·p(b)·p(c|a,b) p(a,b,c)=p(a)⋅p(b)⋅p(c∣a,b)
链式法则形式: p ( a , b , c ) = p ( a ) ⋅ p ( b ∣ a ) ⋅ p ( c ∣ a , b ) p(a,b,c) = p(a)·p(b|a)·p(c|a,b) p(a,b,c)=p(a)⋅p(b∣a)⋅p(c∣a,b)
推导出:
p ( b ) = p ( b ∣ a ) p(b) = p(b|a) p(b)=p(b∣a)(这个只能代表 a b 在没有其他信息的情况下,是独立的)
结论:
c 观测得到时,a 与 b 不独立
c 观测不到时,a 与 b 独立
2)tail-tail 形
因式分解形式: p ( a , b , c ) = p ( a ) ⋅ p ( b ∣ a ) ⋅ p ( c ∣ a ) p(a,b,c) = p(a)·p(b|a)·p(c|a) p(a,b,c)=p(a)⋅p(b∣a)⋅p(c∣a)
链式法则形式: p ( a , b , c ) = p ( a ) ⋅ p ( b ∣ a ) ⋅ p ( c ∣ a , b ) p(a,b,c) = p(a)·p(b|a)·p(c|a,b) p(a,b,c)=p(a)⋅p(b∣a)⋅p(c∣a,b)
推导出:
p ( c ∣ a , b ) = p ( c ∣ a ) p(c|a,b) = p(c|a) p(c∣a,b)=p(c∣a)
结论:
a 观测得到时,b 与 c 独立—— p ( c ∣ b ) = p ( c ) p(c|b) = p(c) p(c∣b)=p(c)
a 观测不到时,b 与 c 不独立
3)tail-head 形
因式分解形式: p ( a , b , c ) = p ( a ) ⋅ p ( b ∣ a ) ⋅ p ( c ∣ b ) p(a,b,c) = p(a)·p(b|a)·p(c|b) p(a,b,c)=p(a)⋅p(b∣a)⋅p(c∣b)
链式法则形式: p ( a , b , c ) = p ( a ) ⋅ p ( b ∣ a ) ⋅ p ( c ∣ a , b ) p(a,b,c) = p(a)·p(b|a)·p(c|a,b) p(a,b,c)=p(a)⋅p(b∣a)⋅p(c∣a,b)
推导出:
p ( c ∣ a , b ) = p ( c ∣ b ) p(c|a,b) = p(c|b) p(c∣a,b)=p(c∣b)
结论:
b 观测得到时,a 与 c 独立—— p ( c ∣ a ) = p ( c ) p(c|a) = p(c) p(c∣a)=p(c)
b 观测不到时,a 与 c 不独立
HMM(Hidden Markov Model) 是结构最简单的 dynamic Bayesian network,是一种著名的有向图模型。
Markov chain:系统下一时刻的状态仅由当前状态决定,不依赖于以往的任何状态,所谓“现在决定未来”
t t t 时刻的状态 y t y_{t} yt 仅依赖于 t − 1 t-1 t−1 时刻的状态 y t y_{t} yt ,与其余 n − 2 n-2 n−2 个状态无关,这就是 Markov chain.
上面不可观测的链(状态变量),就是马尔可夫链
eg:词性标注问题,给一句话,标注每个词的词性!我们看到的那句话就是可观测的 x,每个词的词性就是不可观测的 y,需要预测出来!
1)观测变量: { x 1 , x 1 , . . . , x n } \left \{ x_{1},x_{1},..., x_{n} \right \} {x1,x1,...,xn},$x_{i}\in X $(观测空间)表示第 $ i $ 时刻的观测值,其中 X X X 的取值范围为 { o 1 , o 2 , . . . , o M } \left \{ o_{1},o_{2},..., o_{M} \right \} {o1,o2,...,oM}
2)状态变量: { y 1 , y 1 , . . . , y n } \left \{ y_{1},y_{1},..., y_{n} \right \} {y1,y1,...,yn},也称为隐变量(hidden variable), $y_{i}\in Y $ (状态空间)表示第 $ i $ 时刻系统的状态,其中 Y Y Y 的取值范围为 { s 1 , s 1 , . . . , s N } \left \{ s_{1},s_{1},..., s_{N} \right \} {s1,s1,...,sN}
3)初始状态概率
记为 π = ( π 1 , π 2 , . . . , π N ) \pi = \left (\pi_{1},\pi_{2},..., \pi_{N} \right ) π=(π1,π2,...,πN)
π i = P ( y 1 = s i ) , 1 ⩽ i ⩽ N \pi _{i} = P(y_{1}=s_{i}),1\leqslant i\leqslant N πi=P(y1=si),1⩽i⩽N
表示模型的初始状态为 s i s_{i} si 的概率。
4)输出观测概率
记为矩阵 B = [ b i j ] N × M B = \left [ b_{ij} \right ]_{N\times M} B=[bij]N×M
b i j = P ( x t = o j ∣ y t = s i ) , 1 ⩽ i ⩽ N , 1 ⩽ j ⩽ M b_{ij} = P\left ( x_{t} = o_{j} \mid y_{t} = s_{i} \right ),1\leqslant i\leqslant N,1\leqslant j\leqslant M bij=P(xt=oj∣yt=si),1⩽i⩽N,1⩽j⩽M
表示在任意时刻 t t t ,若状态为 s i s_{i} si, 则观测值 o j o_{j} oj 被获取的概率。
5)状态转移概率
记为矩阵 A = [ a i j ] N × M A = \left [ a_{ij} \right ]_{N\times M} A=[aij]N×M
a i j = P ( y t + 1 = s j ∣ y t = s i ) , 1 ⩽ i , j ⩽ N a_{ij} = P\left ( y_{t+1} = s_{j} \mid y_{t} = s_{i} \right ),1\leqslant i,j \leqslant N aij=P(yt+1=sj∣yt=si),1⩽i,j⩽N
表示在任意时刻t,若状态为 s i s_{i} si, 则在下一时刻状态为 s j s_{j} sj的概率。
指定状态空间Y、观测空间X 和 4)、5)、6)三组参数,就可以确定一个HMM。其参数用 λ = ( A , B , π ) \lambda = \left ( A,B,\pi \right ) λ=(A,B,π) 来表示。给定 λ \lambda λ, 它按照如下过程产生观测序列 { x 1 , x 1 , . . . , x n } \left \{ x_{1},x_{1},..., x_{n} \right \} {x1,x1,...,xn}。
马尔可夫随机场(Markov Random Field)是典型的 Markov network,是一种著名的无向图模型。
马尔可夫随机场(Markov Random Field)包含两层意思。
马尔可夫性质:它指的是一个随机变量序列按时间先后关系依次排开的时候,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。拿天气来打个比方。如果我们假定天气是马尔可夫的,其意思就是我们假设今天的天气仅仅与昨天的天气存在概率上的关联,而与前天及前天以前的天气没有关系。其它如传染病和谣言的传播规律,就是马尔可夫的。
随机场:当给每一个位置中按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场。我们不妨拿种地来打个比方。其中有两个概念:位置(site),相空间(phase space)。“位置”好比是一亩亩农田;“相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。
马尔可夫随机场:拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场。
团:图中任意两个结点间都有边缘连接,则称该结点子集为一个“团”。
极大团:maximal clique,若在一个团中加入另外任何一个结点都不再形成团,则称该团为“极大团”
团:
{ x 1 , x 2 } , { x 1 , x 3 } , { x 2 , x 4 } , { x 2 , x 5 } , { x 2 , x 6 } , { x 3 , x 5 } , { x 5 , x 6 } , { x 2 , x 5 , x 6 } \left \{ x_{1},x_{2} \right \},\left \{ x_{1},x_{3} \right \},\left \{ x_{2},x_{4} \right \},\left \{ x_{2},x_{5} \right \},\left \{ x_{2},x_{6} \right \},\left \{ x_{3},x_{5} \right \},\left \{ x_{5},x_{6} \right \},\left \{ x_{2},x_{5},x_{6} \right \} {x1,x2},{x1,x3},{x2,x4},{x2,x5},{x2,x6},{x3,x5},{x5,x6},{x2,x5,x6}
极大团:
{ x 1 , x 2 } , { x 1 , x 3 } , { x 2 , x 4 } , { x 3 , x 5 } , { x 2 , x 5 , x 6 } \left \{ x_{1},x_{2} \right \},\left \{ x_{1},x_{3} \right \},\left \{ x_{2},x_{4} \right \},\left \{ x_{3},x_{5} \right \},\left \{ x_{2},x_{5},x_{6} \right \} {x1,x2},{x1,x3},{x2,x4},{x3,x5},{x2,x5,x6}
在马尔可夫随机场中,多个变量之间的联合概率分布能基于团分解为多个因子的乘积,每个因子仅与一个团相关。Specifically,对于n个变量 X = { x 1 , x 1 , . . . , x n } X = \left \{ x_{1},x_{1},..., x_{n} \right \} X={x1,x1,...,xn},所有团构成的集合为 C C C,与团 Q ∈ C Q \in C Q∈C对应的变量集合记为 X Q X_{Q} XQ ,则联合概率 P ( X ) P(X) P(X) 定义为
P ( X ) = 1 Z ∏ Q ∈ C ψ Q ( X Q ) P(X) =\frac{1}{Z}\prod_{Q \in C}\psi _{Q}(X_{Q}) P(X)=Z1Q∈C∏ψQ(XQ)
其中 ψ Q \psi _{Q} ψQ为与团 Q Q Q 对应的势函数(potential funcitons)也称为因子(factor), Z = ∑ X ∏ Q ∈ C ψ Q ( X Q ) Z = \sum _{X}\prod_{Q \in C}\psi _{Q}(X_{Q}) Z=∑X∏Q∈CψQ(XQ) 为规范化因子,以确保 P ( X ) P(X) P(X) 是被正确定义的概率,实际中精确的计算出 Z Z Z 通常很困难,但许多任务中往往不需要精确的计算出 Z Z Z 。
若变量个数较多,则团的数目将会很多,则 P ( X ) = 1 Z ∏ Q ∈ C ψ Q ( X Q ) P(X) =\frac{1}{Z}\prod_{Q \in C}\psi _{Q}(X_{Q}) P(X)=Z1∏Q∈CψQ(XQ) 由于乘积项过多会带来计算负担
Note: 若团不是极大团,则它必被一个极大团 Q ∗ Q^{*} Q∗所包含,即 X Q ⊆ X Q ∗ X_{Q} \subseteq X_{Q^{*}} XQ⊆XQ∗。
改进:假定所有极大团构成的集合为 $ C^{*}$
P ( X ) = 1 Z ∗ ∏ Q ∈ C ∗ ψ Q ( X Q ) P(X) =\frac{1}{Z^{*}}\prod_{Q \in C^{*}}\psi _{Q}(X_{Q}) P(X)=Z∗1Q∈C∗∏ψQ(XQ)
其中 Z ∗ = ∑ X ∏ Q ∈ C ∗ ψ Q ( X Q ) Z^{*} = \sum _{X}\prod_{Q \in C^{*}}\psi _{Q}(X_{Q}) Z∗=∑X∏Q∈C∗ψQ(XQ)
eg: 上图中极大团为 { x 1 , x 2 } , { x 1 , x 3 } , { x 2 , x 4 } , { x 3 , x 5 } , { x 2 , x 5 , x 6 } \left \{ x_{1},x_{2} \right \},\left \{ x_{1},x_{3} \right \},\left \{ x_{2},x_{4} \right \},\left \{ x_{3},x_{5} \right \},\left \{ x_{2},x_{5},x_{6} \right \} {x1,x2},{x1,x3},{x2,x4},{x3,x5},{x2,x5,x6}
P ( X ) = 1 Z ∗ ψ 12 ( x 1 , x 2 ) ψ 13 ( x 1 , x 3 ) ψ 24 ( x 2 , x 4 ) ψ 35 ( x 3 , x 5 ) ψ 256 ( x 2 , x 5 , x 6 ) P(X) = \frac{1}{Z^{*}}\psi _{12}(x_{1},x_{2})\psi _{13}(x_{1},x_{3})\psi _{24}(x_{2},x_{4})\psi _{35}(x_{3},x_{5})\psi _{256}(x_{2},x_{5},x_{6}) P(X)=Z∗1ψ12(x1,x2)ψ13(x1,x3)ψ24(x2,x4)ψ35(x3,x5)ψ256(x2,x5,x6)
从结点集A中的结点到结点集B中的结点都必须经过结点集C中的结点,则称结点集A和B被结点集C分离,C称为 “分离集(separating set)”。
全局马尔可夫性(global Markov property):给定两个变量子集的分离集,则这两个变量子集条件独立
也即 X A X_{A} XA和 X B X_{B} XB 在给定 X C X_{C} XC 条件下独立,记为 X A ⊥ X B ∣ X C X_{A} \perp X_{B} \mid X_{C} XA⊥XB∣XC
证明略
由 global Markov property 可以得到两个很有用的推论:
参考
【1】《机器学习》周志华
【2】马尔科夫随机场和马尔科夫链
【3】条件随机场入门(一) 概率无向图模型