自然语言处理之概率图模型--预备知识

概述

本章将介绍一些概率论、图、信息论、马尔可夫等相关基础知识,这些知识点将会贯穿于概率图多个模型的讲解中,在相应模型篇章的开头,也会再次列出这些基础知识。

概率论

概率

概率用来表示事件发生的可能性。

随机变量及概率分布

一个随机实现因为各种偶然因素的影响可能产生多种不同的结果,每一种结果事件的出现都存在一定的概率,简单地说,随机变量就是实验结果的函数。

X为一离散型随机变量,其全部可能的值为{a_1,a_2,\cdots ,a_n},那么p_i=P(X=a_i),i=1,2,\cdots n称为X的概率函数,也可以称为X的概率分布。

联合概率分布

两个及以上随机变量 X_{1},\cdots ,X_{n},可以用联合概率分布P(X_{1},\cdots,X_{n})描述其各个状态的概率,简称为联合概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以以函数的形式表示;对于连续型随机变量,联合概率分布通过非负函数的积分表示。

在概率图模型中,经常用到标记变量Y和观察变量X,这两个变量的联合概率分布表示为P(X,Y)

边缘概率分布

在我们知道了一组随机变量的联合概率的情况下,想要知道其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布。记多维随机变量 X=\{X_{1},\cdots,X_{n}\}YX的真子集,即Y\subset XZX中除了Y中随机变量以外的随机变量的集合,Y的边缘概率分布P(Y)定义为:

P(Y)= \sum_{X\in Z}P(X_{1},\cdots,X_{n})

条件概率分布

一般的,设X=\{X_{1},\cdots,X_{n}\}Y=\{Y_{1},\cdots,Y_{n}\}为两个变量集合,P(X,Y)为变量集合X\bigcup Y的联合概率分布,P(Y)Y的边缘概率分布,则给定YX的条件概率分布定义为:

P(X|Y)=\frac{P(X,Y)}{P(Y)}

独立性与条件独立性

独立性:设有两个变量XYP(X)是未知Y的取值时X的概率分布,P(X|Y=y)是已知Y的取值为yX的概率分布,如果这两个分布相等,则意味着对变量Y的取值的了解不会改变变量X的概率分布,此时称XY相互独立。一般的,称随机变量X_{1},\cdots ,X_{n}相互独立,如果P(X_{1},X_{2},\cdots,X_{n})=P(X_{1})P(X_{2})\cdots P(X_{n})

条件独立性:假如P(A|B\bigcap C)=P(A|C),则事件A在给定事件C时,在分布P上条件独立于事件B,记作P=(A\perp B|C)。如果P满足(A\perp B|C),当且仅当P(A\bigcap B|C)=P(A|C)P(B|C)

贝叶斯定理

贝叶斯定理公式如下:P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}

P(X|Y):已知Y发生后X的条件概率,也称为X的后验概率,也是我们求解的目标。

P(Y|X):已知X发生后Y的条件概率,也称为Y的后验概率,在实际应用中可以通过历史数据统计得到。

P(Y):Y的先验概率或边缘概率,先验的概念在于其不用考虑变量X的分布,在实际应用中可以通过历史数据统计得到。

P(X):X的先验概率或边缘概率,在实际应用中因为分母可以忽略,所以一般不用统计此数据。

图论

图论〔Graph Theory〕是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的边所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的边表示相应两个事物间具有这种关系。

G=(V,E)是一个二元组(V,E),集合V中的元素称为图G的定点(或节点、点),而集合E的元素称为边(或线)。通常,描绘一个图的方法是把定点画成一个小圆圈,如果相应的顶点之间有一条边,就用一条线连接这两个小圆圈。

图分为有向图及无向图,有向图是由一组顶点和一组有方向的边组成的,每条有方向的边都连接着有序的一对顶点,有向图一般用G=<V,E>表示。有向图是由一组顶点和一组没有方向的边组成的,一般用G=(V,E)表示。

自然语言处理之概率图模型--预备知识_第1张图片有向图

 

自然语言处理之概率图模型--预备知识_第2张图片无向图

信息论

如果说概率是对事件确定性的度量,那么信息就是对事件不确定性的度量。

噪声信道模型

在下图所示的通信系统模型中,信源发出消息x,由于有干扰噪音的存在,消息通过信道后信宿收到的是被干扰作用而引起形变的y。

自然语言处理之概率图模型--预备知识_第3张图片

信息量

数学公式:I(X)=-logP(X)

从公式可以得出,信息量的大小和事件发生的概率成反比。

信息熵

熵是信息论的基本概念,它表示信源X每发一个符号(不论什么符号)所提供的平均信息量。

定义:对平均不确定性的度量

数学公式:H(X)=\sum_{X}P(X)log\frac{1}{P(X)}=-\sum_{X}P(X)logP(X)

信息熵的本质是对信息量的期望。

信息熵是对随机变量不确定性的度量,随机变量X的熵越大,说明其不确定性也越大,若随机变量退化为标量,则其熵为0。

平均分布是熵最大的分布。

联合熵

联合熵是描述一对随机变量平均所需要的信息量。

X,Y为两个随机变量,X,Y的联合熵H(X,Y)定义为:

H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(x,y)

条件熵

定义如下:H(Y|X)=\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(y|x)

熵的连锁规则

两个随机变量时:H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)

推广到一般情况:H(X_1,X_2,\cdots,X_n)=H(X_1)+H(X_2|X_1)+\cdots+H(X_n|X_1,\cdots,X_{n-1})

互信息

互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。

I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X),这个差值叫做XY的互信息。

I(X;Y)表示在知道Y的值以后X的不确定性的减少量,可以理解为Y的值透露了多少关于X的信息量。

平均互信息又称为信息增益

自然语言处理之概率图模型--预备知识_第4张图片

相对熵

相对熵又称KL距离,是衡量相同事件空间里两个概率分布相对差距的测度,两个概率分布p(x)q(x)的相对熵定义为:

D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}=E_{p}(log\frac{p(X)}{q(X)})

交叉熵

交叉熵是用来衡量估计模型与真实概率分布之间差异的情况。

马尔可夫相关

随机过程

依赖于参数的一簇随机变量的全体,参数通常是时间,随机变量是随机现象的数量提现,其取值随着偶然因素的影响而改变。

马尔可夫性

状态的转移只取决于相邻状态,简单说,t_{n+1}时刻的状态只与t_{n}时刻相关,而与t_{n}之前的所有时刻都无关。

成对马尔可夫性u,v是无向图G中任意两个没有边连接的结点,O为其它所有结点,Y_{u},Y_{v},Y_{O}分别为u,v,O上的状态变量,成对马尔可夫性要求Y_{u},Y_{v}条件独立,即P(Y_{u},Y_{v}|Y_{O})=P(Y_{u}|Y_{O})P(Y_{v}|Y_{O})

局部马尔可夫性:假设G中的结点v

全局马尔可夫性

马尔可夫链

具有马尔可夫性质的离散时间的随机过程,称为马尔可夫链,其中的每个状态都为离散状态。

马尔可夫随机过程

具有马尔可夫性质的连续时间的随机过程,称为马尔可夫随机过程,其中的每个状态都为离散状态。

随机场

把随机过程推广到多维空间,即为随机场。

其它

产生式模型与判别式模型

产生式模型又称为生成式模型,其针对联合分布P(X,Y)建模,X是模型的一部分,产生式模型可以模拟所有变量的值,一般都有严格的独立性假设,特征是事先给定的,并且特征之间的关系直接体现在公式中。其优点在于处理单类问题时较灵活,模型可通过增量学习获得。缺点为推导和学习较复杂。在自然语言处理中的产生式模型包括n元语法模型、朴素贝叶斯模型、隐马尔可夫模型(HMM)、NShort中文分词模型等。

判别式模型直接对后验概率p(y|x)进行建模,yx决定,x不是模型的一部分。这种思想更符合传统模式分类的思想,我们从x中提取特征学习模型参数,由于x不是模型的一部分,特征可以任意指定,一般的特征是通过函数表示的。其优点为模型简单易学;缺点为模型描述能力有限,变量间关系不清,一般不能扩展到无监督学习。在自然语言处理中的判别式模型包括SVM、感知机、最大熵模型、最大熵马尔可夫模型(MEMM)、条件随机场(CRF)等。

最大似然估计

使用从样本中统计出来的相对频率作为概率的估计值,这种估计概率值的方法称为最大似然估计。

 

 

你可能感兴趣的:(自然语言处理)