机器学习(周志华) 参考答案 第十四章 概率图模型

机器学习(周志华西瓜书) 参考答案 总目录

  • http://blog.csdn.net/icefire_tyh/article/details/52064910

1.试用盘式记法表示条件随机场和朴素贝叶斯分类器。

条件随机场:

这样画的问题在于无法表示N个y之间的关系,到底怎么画我也不知道。

朴素贝叶斯分类器:y依赖于所有的变量x


2.证明图模型中的局部马尔可夫性:给定某变量的邻接变量,则该变量条件独立于其他变量。

直接使用全局马尔科夫性:将两个非邻接的变量看成A和C,肯定存在A的所有邻接变量集合的子集B,把A和C分离(否则与条件矛盾),所以A和C独立。


3.证明图模型中的正对马尔科夫性:给定其他所有变量,则两个非邻接变量条件独立。

直接使用全局马尔科夫性:将两个非邻接的变量看成A和C,其他已知的变量为B。显然B把A,C给分离了,所以A和C独立。


4.试述在马尔科夫随机场中为何仅需对极大团定义势函数。

显然极大团的势函数可以看成是所有子团势函数的联合分布,再乘上规范化因子使得 ψ(x) ψ ( x ) 是正确的概率。


5.比较条件随机场和对率回归,试析其异同。

这里引用crftut-fnt书里的图

可以看出链式条件随机场是对率回归的序列化结果。通俗来说,对率回归是一维变量y对所有自变量x的条件概率,那么条件随机场就是每个自变量 xi x i 都会对应一个 yi y i ,就是多维变量y对自变量的条件概率。同时多元变量y还可能是结构型变量,比如链式结构,或者树形结构等。
对率回归只有一个y节点,公式为:
P(y|x)=1Z(x)eψ(y,x) P ( y | x ) = 1 Z ( x ) e ψ ( y , x )

链式条件随机场相邻的两个y节点组成极大团,公式为:
P(y|x)=1Z(x)n1ieψ(yi,yi+1,xi) P ( y | x ) = 1 Z ( x ) ∏ i n − 1 e ψ ( y i , y i + 1 , x i )
其中Z是归一化参数,f是势函数。

最大的区别在于在求条件概率时,对率回归考虑所有的变量x,而条件随机场仅考虑当前与之对应的变量 xi x i


6.证明变量消去法的计算复杂度随图模型中极大团的增长而呈指数增长,但随着节点数的增长未必呈指数增长。

可以参考书329与330页的公式,当对极大团计算概率累加时,要对内部所有变量同时进行累加,公式为:
...p(x1,x2,x3....) ∑ ∑ ∑ . . . p ( x 1 , x 2 , x 3 . . . . )
所需要的计算次数是 ti ∏ t i , ti t i 表示每个变量的取值可能性,所以是指数级的。
而单独增加节点数目,比如链式地增加,那么可以列出公式:
p(xn|xn1)p(xn1|xn2)...p(x2|x1) ∑ p ( x n | x n − 1 ) ∑ p ( x n − 1 | x n − 2 ) . . . ∑ p ( x 2 | x 1 )
那么最终要计算的次数只是 ti ∑ t i ,并不一定是指数增长。


7.吉布斯采样可以看作MH算法的特例,但吉布斯采样中未使用“拒绝采样”的策略,试述这样做的好处。

MH算法通过拒绝采样最终能生成平稳的马尔科夫链,但是有时因为拒绝概率太大导致状态转移频繁的被拒绝,使得算法效率低下。
吉布斯采样通过每次仅改变一个变量,其他变量保持不变的方法,使得每次改变仅在一个维度,此时接受率为100%,所以不再拒绝,提升了效率。


8.平均场是一种近似推断方法。考虑式(14.32),试析平均场法求解的近似问题与原问题的差异,以及实践中如何选择变量服从的先验分布。

平均场法通过将多元变量z拆分成数个相互独立的多远变量 zi z i ,然后单独求出每一个 zi z i 最有可能的分布来简化问题。第一个差异是多个变量的独立性假设并不一定存在,所以选择变量时尽可能将相关性较大的划为一组,以此逼近真实解。第二是假设每个 zi z i 所服从的先验分布,如果假设不当会造成该方法结果效果很差。所以应该根据当前子变量集合的现有样本数据进行估计,结合可能的专业知识,来得到较好的分布假设。


9.从网上下载或者自己实现LDA,分析《天龙八部》中每10回的话题演变情况。

  • http://blog.csdn.net/icefire_tyh/article/details/53516415

10.试设计一个无须事先指定话题数目的LDA改进算法。

暂无

你可能感兴趣的:(机器学习(周志华西瓜书))