随机场(Random field)

一、随机场定义

http://zh.wikipedia.org/zh-cn/随机场 

随机场(Random field)定义如下:

在概率论中, 由样本空间Ω = {0, 1, …, G − 1}n取样构成的随机变量Xi所组成的S = {X1, …, Xn}。若对所有的ω∈Ω下式均成立,则称π为一个随机场。π(ω) > 0.

一些已有的随机场如:马尔可夫随机场(MRF), 吉布斯随机场 (GRF), 条件随机场 (CRF), 和高斯随机场。

 

二、马尔可夫随机场(Markov Random Field)

也有人翻译为马尔科夫随机场,它包含两层意思:一是什么是马尔可夫,二是什么是随机场。

马尔可夫一般是马尔可夫性质的简称。它指的是一个随机变量序列按时间先后关系依次排开的时候,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。拿天气来打个比方。如果我们假定天气是马尔可夫的,其意思就是我们假设今天的天气仅仅与昨天的天气存在概率上的关联,而与前天及前天以前的天气没有关系。其它如传染病和谣言的传播规律,就是马尔可夫的。

随机场包含两个要素:位置(site),相空间(phase space)。当给每一个位置中按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场。我们不妨拿种地来打个比方。“位置”好比是一亩亩农田; “相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。

好了,明白了上面两点,就可以讲马尔可夫随机场了。还是拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场。

马尔可夫随机场,描述了具有某种特性的集合。拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场。

2.1、马尔科夫随机场 - 什么是随机过程

在当代科学与社会的广阔天地里,人们都可以看到一种叫作随机过程的数学模型:从银河亮度的起伏到星系空间的物质分布、从分子的布朗运动到原子的蜕变过程,从化学反应动力学到电话通讯理论、从谣言的传播到传染病的流行、从市场预测到密码破译,随机过程理论及其应用几乎无所不在。人类历史上第一个从理论上提出并加以研究的过程模型是马尔科夫链,它是马尔科夫对概率论乃至人类思想发展作出的又一伟大贡献。

出于扩大极限定理应用范围的目的,马尔科夫在本世纪初开始考虑相依随机变量序列的规律,并从中选出了最重要的一类加以研究。1906年他在《大数定律关于相依变量的扩展》一文中,第一次提到这种如同锁链般环环相扣的随机变量序列,其中某个变量各以多大的概率取什么值,完全由它前面的一个变量来决定,而与它更前面的那些变量无关。这就是被后人称作马尔科夫链的著名概率模型。也是在这篇论文里,马尔科夫建立了这种链的大数定律。

2.2、马尔科夫随机场 - 什么是马尔科夫随机过程和马尔科夫链

用一个通俗的比喻来形容,一只被切除了大脑的白鼠在若干个洞穴间的蹿动就构成一个马尔科夫链。因为这只白鼠已没有了记忆,瞬间而生的念头决定了它从一个洞穴蹿到另一个洞穴;当其所在位置确定时,它下一步蹿往何处与它以往经过的路径无关。这一模型的哲学意义是十分明显的,用前苏联数学家辛钦(1894-1959〕的话来说,就是承认客观世界中有这样一种现象,其未来由现在决定的程度,使得我们关于过去的知识丝毫不影响这种决定性。这种在已知“现在”的条件下,“未来”与“过去”彼此独立的特性就被称为马尔科夫性,具有这种性质的随机过程就叫做马尔科夫过程,其最原始的模型就是马尔科夫链。

这即是对荷兰数学家惠更斯(Ch. Huygens, 1629-1659)提出的无后效原理的概率推广,也是对法国数学家拉普拉斯(P. S. Laplace, 1749-1827)机械决定论的否定。

这里应该指出,尽管拉普拉斯对概率论的早期发展作出过重大贡献,但是他的部分哲学观点是不利于这门学科的深入发展的。十八世纪以来,随着牛顿力学的彻底胜利,一种机械唯物主义的决定论思潮开始在欧洲科学界蔓延,鼓吹最力者就是拉普拉斯。1759年他在巴黎高等师范学院发表了一篇题为《概率论的哲学探讨》的演讲,淋漓尽致地表达出了这种思想。他说:“假如有人知道了某一时刻支配自然的一切力,以及它的一切组成部分的相对位置,又假如他的智力充分发达,能把这一切数据加以充分的分析,把整个宇宙中从最巨大的天体到最微小的原子的一切运动完全包括在一个公式里面,这样对他就没有什么东西是不确定的了,未来也好,过去也好,他都能纵览无遗。”1812年,拉普拉斯又进一步提出“神圣计算者”的观念,认为这个理想的数学家只须知道世界某一时刻的初始状态,就可以从一个无所不包的微分方程中算出过去和未来的一切状态。换句话说,他认为任意系统在 t > t0时的状态 x可由其初始时刻 t0和初始状态 x0唯一决定。这可真是笔判终身、细评流年,数学家可以摆个卦摊了。马尔科夫的概率模型从根本上否定了系统中任一状态 x与其初始状态 x0之间的因果必然性,从而也否定了“神圣计算者”的神话。

还应该指出,马尔科夫所建立的概率模型不但具有深刻的哲学意义,而且具有真实的物质背景,在他的工作之前或同时,一些马尔科夫链或更复杂的随机过程的例子已出现在某些人的研究中,只不过这些人没有自觉地认识到这类模型的普遍意义或用精确的数学语言表述出来罢了。例如苏格兰植物学家布朗 ( R. Brown, 1773-1858) 于1827年发现的悬浮微粒的无规则运动、英格兰遗传学家高尔顿(F.Galton, 1822-1911) 于1889年提出的家族遗传规律、荷兰物理学家埃伦费斯特 ( P. Ehrenfest, 1880-1933) 于1907年关于容器中分子扩散的实验,以及传染病感染的人数,谣言的传播,原子核中自由电子的跃迁,人口增长的过程等等,都可用马尔科夫链或过程来描述。也正是在统计物理、量子力学、遗传学以及社会科学的若干新课题、新事实面前,决定论的方法显得百孔千疮、踵决肘见。

有趣的是,马尔科夫本人没有提到他的概率模型在物理世界的应用,但是他利用了语言文学方面的材料来说明链的性质。在《概率演算》第四版中,他统计了长诗《叶甫盖尼·奥涅金》中元音字母和辅音字母交替变化的规律:这是长诗开头的两句,意为:“我不想取悦骄狂的人生,只希望博得朋友的欣赏。”诗人那火一般的诗篇在数学家那里变成了一条冷冰冰的锁链:在这条锁链上只有两种链环,C代表辅音、代表元音(为了使问题简化起见,不仿把两个无音字母算作辅音)。马尔科夫分别统计了在C后面出现C和  的概率p和1-p,以及在  后出现C和  的概率q和1-q,把结果与按照俄语拼音规则计算出的结果进行比较,证实了语言文字中随机的(从概率的意义上讲)字母序列符合他所建立的概率模型。

完成了关于链的大数定律的证明之后,马尔科夫又开始在一系列论文中研究链的中心极限定理。1907年他在《一种不平常的相依试验》中证明了齐次马尔科夫链的渐近正态性;1908年在《一个链中变量和的概率计算的极限定理推广》中作了进一步的推广;1910年他发表了重要的论文《成连锁的试验》,在其中证明了两种情况的非齐次马尔科夫链的中心极限定理。与此同时他在一些假定的前提下证明了模型的各态历经性,成为在统计物理中具有重要作用的遍历理论中第一个被严格证明的结果。遍历理论亦称ergodic理论, 是奥地利物理学家玻耳兹曼(L. Boltzmann, 1844-1906) 于1781年提出来的,其大意是:一个系统必将经过或已经经过其总能量与当时状态相同的另外的任何状态。

马尔科夫链的引入,在物理、化学天文生物、经济、军事等科学领域都产生了连锁性的反应,很快地涌现出一系列新的课题、新的理论和新的学科,并揭开了概率论中一个重要分支--随机过程理论蓬勃发展的序幕。

2.3、马尔科夫随机场 - 马尔科夫随机场的通俗解释

马尔可夫随机场(Markov Random Field)包含两层意思。

马尔可夫性质:它指的是一个随机变量序列按时间先后关系依次排开的时候,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。拿天气来打个比方。如果我们假定天气是马尔可夫的,其意思就是我们假设今天的天气仅仅与昨天的天气存在概率上的关联,而与前天及前天以前的天气没有关系。其它如传染病和谣言的传播规律,就是马尔可夫的。

随机场:当给每一个位置中按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场。我们不妨拿种地来打个比方。其中有两个概念:位置(site),相空间(phase space)。“位置”好比是一亩亩农田;“相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。

马尔可夫随机场:拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场。

2.4、马尔科夫随机场 - 马尔科夫过程的数学描述

 

马尔科夫过程

 

马尔科夫随机场

 

马尔科夫随机场

  

2.5、马尔科夫随机场 - 马尔科夫链的数学描述

 

马尔科夫链

 

 

马尔科夫随机场

 

 马尔科夫随机场

马尔科夫随机场

 

 

 

 

马尔科夫随机场

马尔科夫随机场

 

 

2.6、马尔科夫随机场 - 马尔科夫随机场的数学描述

 

马尔科夫随机场

马尔科夫随机场

 

 

 

马尔科夫随机场

马尔科夫随机场

 

 

2.7、马尔科夫随机场 - 参考资料

1.http://zhidao.baidu.com/question/61399759.html?fr=qrl
2.http://www.hudong.com/wiki/马尔科夫#9
3.http://www.cad.zju.edu.cn/home/siuleung/download/Markov.ppt
4.http://define.cnki.net/define_result.aspx?searchword=随机场
5.http://ks.cn.yahoo.com/question/1590000221191.html

 

http://www.hudong.com/wiki/马尔科夫随机场

  

三、条件随机场

最近一种新的分类方法“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马模型(HMM),像基于类的中文分词。但隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。

条件随机场(Conditional random fields),是一种判别式图模型,因为其强大的表达能力和出色的性能,得到了广泛的应用。从最通用角度来看,CRF本质上是给定了观察值集合 (observations)的马尔可夫随机场。在这里,我们直接从最通用的角度来认识和理解CRF,最后可以看到,线性CRF和所谓的高阶CRF,都是某种特定结构的CRF。

3.1、随机场

简单地讲,随机场可以看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。当然,这些随机变量之间可能有依赖关系,一般来说,也只有当这些变量之间有依赖关系的时候,我们将其单独拿出来看成一个随机场才有实际意义。

3.2、Markov随机场(MRF)

这是加了Markov性质限制的随机场。首先,一个Markov随机场对应一个无向图。这个无向图上的每一个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。因此,Markov随机场的结构本质上反应了我们的先验知识——哪些变量之间有依赖关系需要考虑,而哪些可以忽略。 Markov性质是指,对Markov随机场中的任何一个随机变量,给定场中其他所有变量下该变量的分布,等同于给定场中该变量的邻居节点下该变量的分布。这让人立刻联想到马式链的定义:它们都体现了一个思想:离当前因素比较遥远(这个遥远要根据具体情况自己定义)的因素对当前因素的性质影响不大。

Markov性质可以看作是Markov随机场的微观属性,那么其宏观属性就是其联合概率的形式。

假设MRF的变量集合为
S={y1,…yn},
P(y1,…yn)= 1/Z * exp{-1/T * U(y1,..yn)},
其中Z是归一化因子,即对分子的所有y1,..yn求和得到。U(y1,..yn)一般称为energy function, 定义为在MRF上所有clique-potential之和。T称为温度,一般取1。什么是click-potential呢? 就是在MRF对应的图中,每一个clique对应一个函数,称为clique-potential。这个联合概率形式又叫做Gibbs distribution。Hammersley and Clifford定理表达了这两种属性的等价性。
如果click- potential的定义和clique在图中所处的位置无关,则称该MRF是homogeneous;如果click-potential的定义和 clique在图中的朝向(orientation)无关,则称该MRF是isotropic的。一般来说,为了简化计算,都是假定MRF即是 homogeneous也是iostropic的。

3.3、从Markov随机场到CRF

现在,如果给定的MRF中每个随机变量下面还有观察值,我们要确定的是给定观察集合下,这个MRF的分布,也就是条件分布,那么这个MRF就称为 CRF(Conditional Random Field)。它的条件分布形式完全类似于MRF的分布形式,只不过多了一个观察集合x,即P(y1,..yn|x) = 1/Z(x) * exp{ -1/T * U(y1,…yn,x)。U(y1,..yn,X)仍旧是click-potential之和。

3.4、训练

通过一组样本,我们希望能够得到CRF对应的分布形式,并且用这种分布形式对测试样本进行分类。也就是测试样本中每个随机变量的取值。

在实际应用中,clique-potential主要由用户自己定义的特征函数组成,即用户自己定义一组函数,这些函数被认为是可以用来帮助描述随机变量分布的。而这些特征函数的强弱以及正向、负向是通过训练得到的一组权重来表达的,这样,实际应用中我们需要给出特征函数以及权重的共享关系(不同的特征函数可能共享同一个权重),而clicque-potential本质上成了对应特征函数的线性组合。这些权重就成了CRF的参数。因此,本质上,图的结构是用户通过给出特征函数的定义确定的(例如,只有一维特征函数,对应的图上是没有边的)还有,CRF的分布成了对数线性形式。

看到这个分布形式,我们自然会想到用最大似然准则来进行训练。对其取log之后,会发现,表达式是convex的,也就是具有全局最优解——这是很让人振奋的事情。而且,其梯度具有解析解,这样可以用LBFGS来求解极值。

此外,也可以使用最大熵准则进行训练,这样可以用比较成熟的GIS和IIS算法进行训练。由于对数线性的分布形式下,最大熵准则和最大似然准则本质上是一样的,所以两者区别不是很大。

此外,由于前面两种训练方法在每一轮迭代时,都需要inference,这样会极大地降低训练速度。因此普遍采用另一种近似的目标函数,称为伪似然。它用每个随机变量的条件分布(就是给定其他所有随件变量的分布)之积来替代原来的似然函数,根据markov性质,这个条件分布只和其邻居有关(Markov Blanket),这样在迭代过程中不需要进行全局的inference,速度会得到极大的提升。我自己的经验表明,当特征函数很多取实数值时,伪似然的效果跟最大似然的差不多,甚至略好于后者。但对于大量二元特征(binary-valued),伪似然的效果就很差了。

3.5、推断

如前所述,训练的过程中我们需要概率推断,分类的时候我们需要找出概率最大的一组解,这都涉及到推断。这个问题本质上属于图模型上的概率推断问题。对于最简单的线性框架的结构,我们可以使用Viterbi算法。如果图结果是树形的,可以采用信念传播(belief propogation),用sum-product得到概率,用max-product得到最优的configuration.但是对于任意图,这些方法就无效了。一种近似的算法,称为loopy-belief propogation,就是在非树形结构上采用信念传播来进行推断,通过循环传播来得到近似解。这么做据说在某些场合下效果不错。但是,在训练时如果采用近似推断的话,可能会导致长时间无法收敛。
基于任意图上的概率推断算法称为junction tree。这个算法能够保证对任意图进行精确推理。它首先把原来的图进行三角化,在三角化的图上把clique按照某种方式枚举出来作为节点(实际上就是合并特征函数),clicque之间如果有交集,对应的节点之间就有边,这样就得到一个新的图,通过对这个图求最大生成树,就得到了Junction tree. 最后在junction tree上进行信念传播可以保证得到精确解。

本质上这3中算法都属于动态规划的思想。Viterbi的想法最直观,信念传播首先将特征函数都转换为factor,并将其与随机变量组合在一起形成 factor-graph, 这样在factor-graph上用动态规划的思想进行推断(即做了一些预处理)。junction tree的做法是通过合并原有的特征函数, 形成一种新的图,在这个图上可以保证动态规划的无后效性,于是可以进行精确推理。(做了更为复杂的预处理)值得注意的是,junction tree虽然极大地避开了组合爆炸,但由于它要合并特征函数并寻找clique, 用户的特征函数如果定义的维数过大,它得到新的clique也会很大,这样在计算的时候还是会很低效,因为在推断的过程中它需要遍历所有clique中的配置,这和clique的大小是呈指数级的。所以,用户要避免使用维数过高的特征。

3.6、CRF及其应用

条件随机域模型是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。即给定观察序列O,求最佳序列S。

1 链式条件随机场模型的图结构

2 条件随机场模型的分解式

3 原理:

(1)目标函数:基于最大熵原则进行建模,定义样本条件熵

(2)约束条件:

以团为单位定义特征

约束特征的样本期望与模型期望相同:

另外:

(3)求解:运用拉格朗日乘数法,求解出条件随机场的分布形式如下:

4 与其他算法的比较

优点:

(1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)————与HMM比较

(2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。­­————与MEMM比较

(3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。

————与ME比较

缺点:训练代价大、复杂度高

5 应用

常见的序列标注问题,如分词、词性标注等等。via

固定链接: 随机场-Random Field | 丕子 +复制链接

 

 

 

四、HMM,MEMM,CRF模型的比较

这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化,而CRF模型中,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。

举个例子,对于一个标注任务,“我爱北京天安门“,

   标注为" s s  b  e b c e"

对于HMM的话,其判断这个标注成立的概率为 P= P(s转移到s)*P('我'表现为s)* P(s转移到b)*P('爱'表现为s)* ...*P().训练时,要统计状态转移概率矩阵和表现矩 阵。

对于MEMM的话,其判断这个标注成立的概率为 P= P(s转移到s|'我'表现为s)*P('我'表现为s)* P(s转移到b|'爱'表现为s)*P('爱'表现为s)*..训练时,要统计条件状态转移概率矩阵和表现矩阵。

对于CRF的话,其判断这个标注成立的概率为 P= F(s转移到s,'我'表现为s)....F为一个函数,是在全局范围统计归一化的概率而不是像MEMM在局部统计归一化的概率。

 

五.无向图模型

转(http://isip.buaa.edu.cn/lichen/?p=192)
本文翻译自Conditional Random Fields: An Introduction. Hanna M. Wallach February 24, 2004

可以把条件随机场看成是一个无向图模型或者在观察变量序列 上的马尔科夫随机场。形式化地定义, 是无向图,其中的节点 对应 中的一个元素 。如果每个随机变量 满足马尔科夫性质,那么 就是一个条件随机场。理论上图 可以是任意结构,只要它体现了标签序列 之间的条件独立性。尽管如此,在对序列建模的时候,最简单和常见的图结构是其中的序列节点即 的各个元素排成一条链状(简单的一阶模型)。如下图所示:

5.1 潜在函数

基于条件独立的概念,条件随机场的图结构可以用于把分布于 上的联合概率函数分解成多个严格为正的实值函数(潜在函数)的乘积。这些实值函数需要进行标准化以满足概率函数的特质。根据无向图条件独立性定义,如果 中两个节点不相邻(无边连接它们),那么由这两个节点代表的随机变量在给定其他随机变量的情况下就是条件独立的。潜在函数必须保证联合概率函数的可分解性,也就是说,条件独立的随机变量不能出现在同一个潜在函数中。直观地看,要满足这个条件就要求每个这样的潜在函数在仅定义在图 中的一个最大团(clique)中的节点对应的随机变量上。这就保证了没有潜在函数会引用不直接相邻的两个节点,而属于同一个团的节点之间的关系也变得明了。在上图的链式CRF中,每个潜在函数仅仅定义在相邻的标签节点对 和 上。

注意,单独的潜在函数是没有直接上的概率意义,它仅仅代表其定义上的这些随机变量之间的一种约束关系。但它们的乘积却影响了全局的概率。全局概率较高的模型更有可能满足这些局部约束关系。
来自: http://hi.baidu.com/ming_roady/blog/item/2a47d558e7e633242934f02e.html

 

六、条件随机场

转(http://isip.buaa.edu.cn/lichen/?p=208)
本文翻译自Conditional Random Fields: An Introduction. Hanna M. Wallach February 24, 2004

Lafferty et al定义在给出观察序列 的条件下某个标签序列 的条件概率是一系列潜在函数的乘积(归一化后)。每个潜在函数有如下的形式:

其中 是定义在整个观察序列和第 和 位置上的标签的转移特征函数; 是定义在第 位置上的标签和整个观察序列上的状态特征函数; 和 则需要通过训练参数估计得出。

在定义这些特征函数的前,我们首先构建一系列定义于观察序列上实值特征 ,这些特征用于描述训练数据的经验分布的某些特点。这些特点符合模型的分布。一个这样特征的例子如下:
图片



每个特征函数选择这样的某个实值观察特征作为它的值。对于状态特征函数,如果当前的状态是某个特定的值,该特征函数取值为 ;对于转移特征函数,如果当前的状态和前一状态是某特定值,它就取值 。因此所有的特征函数都是实值函数。例如,考虑下面的转移特征函数:
图片(也见上图)
在接下来的章节,我们采用下面的简写:
 
记:
 
其中 代表状态特征函数 或者转移特征函数 . 这样我们就可以把给出一个观察序列 ,某个标注序列 的条件概率写成如下形式:
 
 是个归一化因子。是不是似曾相似,对了,这个条件概率和最大熵模型中的目标函数是一样的。

来自: http://hi.baidu.com/ming_roady/blog/item/4563ceeda500d1df2e2e2102.html

 

七、随机场 random field

  随机场,多维时间随机过程(stochastic Proo乏s谊nlultidi叮rnsional tnne),多维参数随机过程(stocll是巧tic pro璐5 witll am川tidi- n℃r‘ional pardll犯ter) 一种定义在多维空间点集上的随机函数(random nmctjon).随机场是随机函数的一个重要例子(见随机元(ralldom elezllent)),在各种应用中常常遇到. 依赖于三个空问坐标x,y,:(以及时间t)的随机场的例子是湍流的速度分量、气压和溢度场(见tl〕). 依赖于两个坐标x和夕的随机场例子是一个波状的海面或粗糙的板表面的高度:(见fZ」).在按地球尺度的大范围大气过程的研究中,地面压力场和其他气象特征有时看作球面上的随机场,等等. 一般形式的随机场理论几乎等同于随机函数的一般理论.人们只能对各种带有附加性质的特殊类型的随机场得到更有趣的具体结果.那些附加性质简化了对它们的研究.齐次随机场(m幻dom fie】d,homo罗- 卿us)是这样一类随机场,定义在具有变换群G的齐次空间S上并且具有性质:在S的任意一个有限点组上场的值的概率分布,或场的平均值及点对上值的二阶矩,当G的元素作用到它们的自变量上时是不变的.在Euchde空间R“,k=l,2,…,或在R人的具有整值坐标的格点集Z人上的齐次随机场,当G取成一切可能的(或所有整值的)平行变换的群时是平稳随机过程(statiol釜Lry stocl蝴tic pro眯)的自然推广,有关平稳随机过程的许多结果可用类似的方式搬到这种齐次随机场上.在应用上(特别,对流体力学,见【1】)有极大兴趣的是R3或RZ上的称之为各向同性的齐次随机场,其中G是相应空间的各向同性变换群.齐次随机场的一个重要特点是无论对场本身还是它的相关函数都存在特殊形式的谱分解(例如,见 t31,[41,汇川;亦见随机函数的谱分解(s详ct抢】 decomPos币on of an川domf加Ction)). 吸引着很大注意力的另外一类随机场是定义在R介的某一区域K上的Ma拌oB随机场(Markov抢ndom 6e】ds).随机场U(x)是初习评oB的条件;粗略地说,是对一个具有边界r的开集Q的充分大的族,对任意。>0,取定这个场在r的。邻域rE上的值的条件下,随机变量族{u(x):x任Q\r“}和{U(x): x6T\厂;独立,其中T是在K中Q的闭包的余集 (或在广义MaPKoB性的情形,两个随机变量族相互不相关,例如见【SJ).可以把这一概念推广到L- Ma拌oB随机场,上述独立性(或正交性)只需将任意宽度的。邻域r“换作特殊厚度类型的边界r+L. M技PKoB随机场和L一MaPKoB场的理论在量子场论和统计物理学中有许多重要的应用(见汇6],「7」).由统计物理问题产生的另外一类随机场是Gib比随机场,它的概率分布可以用gb怡分布(Gib忱distribution) (例如,见【7」,汇8},【10〕)来表示.定义场砒随机场的一种方便的方式包含一族在一有限区域内场的值的条件概率分布(相对于这个区域外部的一切固定值).必须注意,把平滑流形S上的随机场看作一个厂‘义随机场的特殊情形常常是方便的.这种随机场可能在一个指定的点不存在值,但其平滑值U(甲)可解释作在某个平滑检验函数中(x)空间D上定义的随机线性泛函.广义随机场(特别是广义Ma哪oB随机场)在物理应用中广泛地被使用.在广义随机场 (random field,罗nemll左过)理论的范围内,通过考虑场U(职),其中,(x)满足丁,(x)己、一。,相对于平稳增最随机过程(stochasticp~俪tll s扭加na理~nts),也可以定义局部齐次(以及局部齐次且局部各向同性)随机场,见〔10],〔川.在湍流的统计理论中这样的场起着重要的作用(例如,见11〕.19]). 【补注】对Gib比场和Ma琳朋场亦见【A2]一IA3],随机场的估计理论在〔A4]一〔A51中有讨论,关于随机场的极限定理见fAS],

 

八、马尔可夫随机场(Markov Random Field)

包含两层意思。一是什么是马尔可夫,二是什么是随机场。

马尔可夫一般是马尔可夫性质的简称。它指的是一个随机变量序列按时间先后关系依次排开的时候,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。拿天气来打个比方。如果我们假定天气是马尔可夫的,其意思就是我们假设今天的天气仅仅与昨天的天气存在概率上的关联,而与前天及前天以前的天气没有关系。其它如传染病和谣言的传播规律,就是马尔可夫的。

随机场包含两个要素:位置(site),相空间(phase space)。当给每一个位置中按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场。我们不妨拿种地来打个比方。“位置”好比是一亩亩农田;“相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。

好了,明白了上面两点,就可以讲马尔可夫随机场了。还是拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场。

 

九、条件随机场(Conditional random fields,CRFs)

与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相似,在离开IBM后他去了卡耐基梅隆大学继续搞学术研究,2001年以第一作者的身份发表了CRF的经典论文 “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”。

条件随机场理论(CRFs)可以用于序列标记、数据分割、组块分析等自然语言处理任务中。在中文分词、中文人名识别、歧义消解等汉语自然语言处理任务中都有应用,表现很好。

 

目前基于 CRFs 的主要系统实现有 CRF,FlexCRF,CRF++

缺点:训练代价大、复杂度高

—预备知识
—产生式模型和判别式模型(Generative model vs. Discriminative model)
—概率图模型
—隐马尔科夫模型
—最大熵模型 

机器学习方法的两种分类:产生式模型和判别式模型

假定输入x, 类别标签y


—产生式模型(生成模型)估计联合概率 P(x, y), 因可以根据联合概率来生成样本 —: HMMs
—判别式模型(判别模型)估计条件概率 P(y|x), 因为没有x的知识,无法生成样本,只能判断分类: SVMs,CRF,MEM
一个举例:
(1,0), (1,0), (2,0), (2, 1)
产生式模型:

p(x, y):
P(1, 0) = 1/2, P(1, 1) = 0, P(2, 0) = 1/4, P(2, 1) = 1/4.

判别式模型:
P(y|x):
P(0|1) = 1, P(1|1) = 0, P(0|2) = 1/2, P(1|2) = 1/2
—o和s分别代表观察序列和标记序列
—产生式模型
—     构建o和s的联合分布p(s,o)
—判别式模型
—     构建o和s的条件分布p(s|o)
—产生式模型中,观察序列作为模型的一部分;
—判别式模型中,观察序列只作为条件,因此可以针对观察序列设计灵活的特征。
产生式模型:无穷样本==》概率密度模型 = 产生模型==》预测
判别式模型:有限样本==》判别函数 = 预测模型==》预测
    一般认为判别型模型要好于生成型模型,因为它是直接根据数据对概率建模,而生成型模型还要先求两个难度相当的概率
概率图模型
—用图的形式表示概率分布
—基于概率论中贝叶斯规则建立起来的,解决不确定性问题,可以用于人工智能、 数据挖掘、 语言处理文本分类等领域

图模型是表示随机变量之间的关系的图,图中的节点表示随机变量,缺少边表示条件独立假设。因此可以对联合分布提供一种紧致表示
—根据边是否有方向,有两种主要的图模型
◦无向图:亦称马尔科夫随机场(Markov Random Fields, MRF’s)或马尔科夫网络(Markov Networks)
◦有向图:亦称贝叶斯网络(Bayesian Networks)或信念网络(Belief Networks, BN’s).
◦还有混合图模型,有时称为链图(chain graphs)
—我们不妨拿种地来打个比方。其中有两个概念:位置(site),相空间(phase space)。“位置”好比是一亩亩农田;“相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。
—简单地讲,随机场可以看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。当给每一个位置中按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场。
—当然,这些随机变量之间可能有依赖关系,一般来说,也只有当这些变量之间有依赖关系的时候,我们将其单独拿出来看成一个随机场才有实际意义。
—具有马尔科夫性质
—体现了一个思想:离当前因素比较遥远(这个遥远要根据具体情况自己定义)的因素对当前因素的性质影响不大。

条件随机场模型是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。即给定观察序列O,求最佳序列S。 

CRF其实就是一种在生产模型基础上的判别模型?

条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。

条件随机场理论(CRFs)可以用于序列标记、数据分割、组块分析等自然语言处理任务中。在中文分词、中文人名识别、歧义消解等汉语自然语言处理任务中都有应用,表现很好。

目前基于 CRFs 的主要系统实现有 CRF,FlexCRF,CRF++

缺点:训练代价大、复杂度高

条件随机场模型是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。即给定观察序列O,求最佳序列S。

与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相似,在离开IBM后他去了卡耐基梅隆大学继续搞学术研究,2001年以第一作者的身份发表了CRF的经典论文 “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”。

关于条件随机场的参考文献及其他资料,Hanna Wallach在05年整理和维护的这个页面“conditional random fields”非常不错,其中涵盖了自01年CRF提出以来的很多经典论文(不过似乎只到05年,之后并未更新)以及几个相关的工具包(不过也没有包括CRF++),但是仍然非常值得入门条件随机场的读者参考。

一般序列分类模型常常采用隐马模型(HMM), 像基于类的中文分词, 但隐马模型中存在两个假设: 输出独立性假设和马尔可夫性假设. 其中, 输出独立性假设要求序列数据严格相互独立才能保证推导的正确性, 而事实上大多数序列数据不能被表示成一系列独立事件. 而条件随机场则使用一种概率图模型, 具有表达长距离依赖性和交叠性特征的能力, 能够较好地解决标注(分类)偏置等问题的优点, 而且所有特征可以进行全局归一化, 能够求得全局的最优解.

条件随机场是一个无向图上概率分布的学习框架, 由Lafferty 等首先引入到自然语言处理的串标引学习任务中来. 最常用的一类CRF是线性链CRF, 适用于我们的分词学习. 记观测串为W=w1w2…wn, 标记串(状态)序列 Y=y1y2…yn, 线性链CRF对一个给定串的标注, 其概率定义为:

。。。 。。。

其中, Y是串的标注序列, W是待标记的字符, fk是特征函数, λk是对应的特征函数的权值, 而t是标记, Z(W)是归一化因子, 使得上式成为概率分布.

CRF模型的参数估计通常使用L-BFGS算法来完成. CRF的解码过程, 也就是求解未知串标注的过程, 需要搜索计算该串上的一个最大联合概率, 即:

Y* = arg max(y)P(Y|W)

    在线性链CRF上, 这个计算任务可以用一般的Viterbi算法来有效地完成.

目前我发现的关于CRF的实现有:

* CRF++(http://crfpp.sourceforge.net/)

* Pocket CRF(http://sourceforge.net/project/showfiles.php?group_id=201943)

 

最近一种新的分类方法“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马模型(HMM),像基于类的中文分词。但隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。

 

图像分析、随机场和动态蒙特卡罗方法(英文版)

李子清书 Markov Random Field Modeling in Image Analysis 

条件随机场http://wenku.baidu.com/view/de5c860a79563c1ec5da71e2.html

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/wen718/archive/2010/10/23/5960820.aspx

条件随机场:http://www.docin.com/p-92971531.html

 

 

你可能感兴趣的:(算法,tree,Random,自然语言处理,语言,任务)