9.1.1 聚类图(Cluster Graphs)
聚类图即这样的一个无向图:节点是团 Ci⊆X1,…,Xn ,其中 Xi 是第 i 个变量;节点 Ci 和 Cj 之间的边代表子集 S(i,j)⊆Ci∩Cj 范围内两节点之间的信息交流。
聚类图代表着其中的节点和节点之间的消息传播的通道,两个节点能通过边来传递它们共同知道的变量的相关信息。因此,原来的图中一个因子存在且只存在于聚类图中的一个节点中,表示原来的因子信息包含且只包含在一个聚类图的节点中,这样原来的因子的信息都会被包含进去,并且只被计算一次。
另外,一个图可以对应多个聚类图,因为因子所聚集的方式不一样。
9.1.2 置信传播算法
置信传播算法如下:
(1)把每个因子 φk∈Φ 分配进团 Cαk 中;
(2)构建初始势: ψi(Ci)=∏k:α(k)=iφk ;
(3)设置初始传递的消息为 1 : δi→j=1 ;
(4)选择边进行消息传递: δi→j(Si,j)=∑Ci−Si,jψi(Ci)∏k∈(Ni−j)δk→i
9.1.2 其他
(1)置信传播算法可能发生振荡而不收敛。
(2)置信传播算法是一个近似算法而不是精确推理。
(3)置信传播算法在业界表现出色。
9.2.1 Family Preservation
即,每一个因子都应该被包含且只包含在一个团 Cαk 中而不应有遗漏。
9.2.2 Running Intersection
对于每一对包含了同一变量 X 的团 Ci、Cj ,应该存在且只存在一条包含变量 X 的路径。换言之,任一变量所属的所有节点和路径组合起来应该是一个树。这是由于,如果存在环,则信息就会循环流通并加强,最后可能就会得出一个不那么好的结果。同理,如果两个有强相关关系的变量的路径相互构成环,也可能得到不好的结果,所以置信传播在变量之间强相关的情况下通常表现得不好。
9.2.3 一种通用的简单聚类图
令每一个因子单独成为一个团,令每一个变量单独成为一个团,只在因子形成的团和变量形成的团之间进行连接,链接所传递的变量即所连接的变量团的变量。
这样形成的团一定是正确的,但却不一定有效,所以可以根据不同的情况自行构建丰满的聚类图以减少计算开支。
10.1.1 校准(Calibration)
如果对于相邻的两个团 Ci、Cj ,如果它们之间关于某子集 Si,j 的信息是相等的,则我们称它们是被校准的(Calibrated),即: ∑Ci−Si,jβi(Ci)=∑Cj−S(i,j)βj(Cj) 。
10.1.2 校准的即收敛的
如果两个团是校准的,则它们是收敛的,即上一次传递的信息与下一次传递的信息量相等: δi→jSi,j′=δi→j(Si,j) 。同时有如下公式:
把聚类图做成树的形式即得到团树,可以知道,团树可以满足聚类图的两大性质:
(1)Family Preservation:即所有的因子都存在于一个团中,所有的团都含有至少一个因子。
(2)RIP(Running Intersection Property): 对于每一对包含了同一变量 X 的团 Ci、Cj ,应该存在且只存在一条包含变量 X 的路径。
而基于这两点性质,当需要在某一个团上求其边缘分布时,把该团的分布 βi(Ci) 逐步分解,最后可以发现该团上没有的其他因子都被变量消除掉了。进一步来说,当团向邻居团进行消息传递时,会通过连加的形式消除掉邻居团没有的变量。故而其结果是正确的。
所以,置信传播可以在树的数据结构上运行,其计算相当于变量消除,且保证了结果正确。
10.3.1 消息在树中的传递及消息的收敛
可以发现,叶子团向外传递的消息是不变的,因为它们向外传递的消息只受本身信息的影响。那么,如果收到的消息都是叶子的消息,该团向外传播的消息也是不变的。进而,如果遵循如下方法进行消息传播,那么可以快速收敛:团 i 在收到除团 j 以外的所有消息后(称为就绪)才能向团 j 发送消息。
如此一来,发送的所有消息都是不会变更的最终的消息(因为消息的变更依赖于上游团发来的消息的变更,循环追溯到叶子团,叶子团的消息不变更),所以消息传递次数即 2(K−1) ,其中 K 是团数量。
10.3.2 后验分布查询
(1)对于出现在同一团的变量:即按照消息传递的方向依次进行变量消除即可。如果存在证据,则消除变量后对证据变量进行变量缩减。最后归一化。
(2)对于证据与查询目标不在同一个团:在所有存在证据的团进行变量缩减,然后进行消息传递(消除变量),最后归一化。
10.3.3 新增额外的证据
只需要更新新增证据到查询目标路径上的所有同方向的信息,其他的信息对于查询目标来说没有任何区别,所有可以重用。
10.4.1 RIP和独立性
对于团树 T 的一个边 (i,j) 而言,可以将整个团树分为3部分:
(1)边 (i,j) 内的变量 Si,j 。
(2) W<(i,j) 是所有在团i一边的除 Si,j 的其他变量。
(3) W<(j,i) 是所有在团j一边的除 Si,j 的其他变量。
可以得出:如果 T 满足RIP,则 PΦ⊨(W<(i,j)⊥W<(j,i)|Si,j) ,证明是,如果在 W<i,j、W<j,i 的任意两个变量之间存在边,则应把这两个变量组成一个团,但这个团无论放在边 (i,j) 的哪一边都不再满足RIP,故团树满足RIP即应满足该独立性。
10.4.2 复杂度
团树的变量消除的复杂度与满足把整个图二分的 Si,j 内所需要的最小变量的数目有关。
10.5.1 变量消除和团树的关系
可以认为,在变量消除中一次变量消除所涉及到的所有变量构成一个团,去掉被消除的变量剩下的变量成为指向下一个团的有向边。如果一个团的所有变量被包含在了另一个团中,则去除这个团。
10.5.2 变量消除形成团树的证明
(1)形成的是一个团树:因为某一变量消除了就不会再出现(或某一因子只使用一次),所以不会重复形成同一个团,即不会出现指向已生成的团的边。
(2)满足family preserving:每一步都会使用且必然使用一个因子,意味着团内一定包含一个因子;每一个因子必然被使用,说明每一个因子必然被包含在一个团中。
(3)RIP:如果变量 x 是在某一条边 (i,j) 上被消除了,那么团 i 中一定有变量 x ;同节点 i 的非祖先变量中一定不含有 x ;节点i的任一祖先变量中如果含有 x ,则该节点的子节点一定含有 x 。因此,含有变量 x 的节点和边必然会组成一个树,即满足RIP。
10.5.3 总结
团树可以模拟变量消除,并且变量消除的计算代价与对应的团树的消息传递的代价相同。
团树可以缓存消息付出两倍变量与消除的代价来计算团树中任一变量的边缘分布。
10.6.1 问题提出
在实际的BP算法应用中最严重的问题在于收敛性和正确性,而导致算法振荡不收敛、不正确的很大部分原因是聚类图中存在环。其他原因还有强烈的位势差、方向冲突等。
10.6.2 BP算法的变异
大体上置信传播方式可以分为同步更新与异步更新,同步更新即同时更新所有消息,异步更新则不然。并且,一般来说同步更新效果较差,异步更新效果好,但取决于消息传播的顺序。
10.6.3 两种观察
第一种观察是,非收敛的部分通常是带环的局部问题,所以当算法更新到一定时间后停止,并在一定窗口内取平均。
第二种观察是,非收敛问题通常表现为振荡,那么减少或者避免振荡则可以达到收敛的目的,由此衍生出一些方法:
(1)通过使用阻尼版本来减少振荡:即使传递的消息分成两部分,一部分是应传递的消息,另一部分是旧有的消息。这样做的目的是通过减少更新所带来的差异减少振荡,理论上说当更新差异足够小时是可以保证收敛的。公式如下: