本章将介绍一些概率论、图、信息论、马尔可夫等相关基础知识,这些知识点将会贯穿于概率图多个模型的讲解中,在相应模型篇章的开头,也会再次列出这些基础知识。
概率用来表示事件发生的可能性。
一个随机实现因为各种偶然因素的影响可能产生多种不同的结果,每一种结果事件的出现都存在一定的概率,简单地说,随机变量就是实验结果的函数。
设为一离散型随机变量,其全部可能的值为,那么称为的概率函数,也可以称为的概率分布。
两个及以上随机变量 ,可以用联合概率分布描述其各个状态的概率,简称为联合概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以以函数的形式表示;对于连续型随机变量,联合概率分布通过非负函数的积分表示。
在概率图模型中,经常用到标记变量Y和观察变量X,这两个变量的联合概率分布表示为。
在我们知道了一组随机变量的联合概率的情况下,想要知道其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布。记多维随机变量 ,是的真子集,即,为中除了Y中随机变量以外的随机变量的集合,的边缘概率分布定义为:
一般的,设和为两个变量集合,为变量集合的联合概率分布,为的边缘概率分布,则给定时的条件概率分布定义为:
独立性:设有两个变量和,是未知的取值时的概率分布,是已知的取值为时的概率分布,如果这两个分布相等,则意味着对变量的取值的了解不会改变变量的概率分布,此时称和相互独立。一般的,称随机变量相互独立,如果。
条件独立性:假如,则事件在给定事件时,在分布上条件独立于事件,记作。如果满足,当且仅当。
:已知Y发生后X的条件概率,也称为X的后验概率,也是我们求解的目标。
:已知X发生后Y的条件概率,也称为Y的后验概率,在实际应用中可以通过历史数据统计得到。
:Y的先验概率或边缘概率,先验的概念在于其不用考虑变量X的分布,在实际应用中可以通过历史数据统计得到。
:X的先验概率或边缘概率,在实际应用中因为分母可以忽略,所以一般不用统计此数据。
图论〔Graph Theory〕是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的边所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的边表示相应两个事物间具有这种关系。
图是一个二元组,集合中的元素称为图的定点(或节点、点),而集合的元素称为边(或线)。通常,描绘一个图的方法是把定点画成一个小圆圈,如果相应的顶点之间有一条边,就用一条线连接这两个小圆圈。
图分为有向图及无向图,有向图是由一组顶点和一组有方向的边组成的,每条有方向的边都连接着有序的一对顶点,有向图一般用表示。有向图是由一组顶点和一组没有方向的边组成的,一般用表示。
如果说概率是对事件确定性的度量,那么信息就是对事件不确定性的度量。
在下图所示的通信系统模型中,信源发出消息x,由于有干扰噪音的存在,消息通过信道后信宿收到的是被干扰作用而引起形变的y。
数学公式:
从公式可以得出,信息量的大小和事件发生的概率成反比。
熵是信息论的基本概念,它表示信源X每发一个符号(不论什么符号)所提供的平均信息量。
定义:对平均不确定性的度量
信息熵的本质是对信息量的期望。
信息熵是对随机变量不确定性的度量,随机变量的熵越大,说明其不确定性也越大,若随机变量退化为标量,则其熵为0。
平均分布是熵最大的分布。
联合熵是描述一对随机变量平均所需要的信息量。
设为两个随机变量,的联合熵定义为:
两个随机变量时:
推广到一般情况:
互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。
,这个差值叫做和的互信息。
表示在知道的值以后的不确定性的减少量,可以理解为的值透露了多少关于的信息量。
平均互信息又称为信息增益。
相对熵又称KL距离,是衡量相同事件空间里两个概率分布相对差距的测度,两个概率分布和的相对熵定义为:
交叉熵是用来衡量估计模型与真实概率分布之间差异的情况。
依赖于参数的一簇随机变量的全体,参数通常是时间,随机变量是随机现象的数量提现,其取值随着偶然因素的影响而改变。
状态的转移只取决于相邻状态,简单说,时刻的状态只与时刻相关,而与之前的所有时刻都无关。
成对马尔可夫性:是无向图中任意两个没有边连接的结点,为其它所有结点,分别为上的状态变量,成对马尔可夫性要求条件独立,即。
局部马尔可夫性:假设G中的结点
全局马尔可夫性:
具有马尔可夫性质的离散时间的随机过程,称为马尔可夫链,其中的每个状态都为离散状态。
具有马尔可夫性质的连续时间的随机过程,称为马尔可夫随机过程,其中的每个状态都为离散状态。
把随机过程推广到多维空间,即为随机场。
产生式模型又称为生成式模型,其针对联合分布建模,是模型的一部分,产生式模型可以模拟所有变量的值,一般都有严格的独立性假设,特征是事先给定的,并且特征之间的关系直接体现在公式中。其优点在于处理单类问题时较灵活,模型可通过增量学习获得。缺点为推导和学习较复杂。在自然语言处理中的产生式模型包括n元语法模型、朴素贝叶斯模型、隐马尔可夫模型(HMM)、NShort中文分词模型等。
判别式模型直接对后验概率进行建模,由决定,不是模型的一部分。这种思想更符合传统模式分类的思想,我们从中提取特征学习模型参数,由于不是模型的一部分,特征可以任意指定,一般的特征是通过函数表示的。其优点为模型简单易学;缺点为模型描述能力有限,变量间关系不清,一般不能扩展到无监督学习。在自然语言处理中的判别式模型包括SVM、感知机、最大熵模型、最大熵马尔可夫模型(MEMM)、条件随机场(CRF)等。
使用从样本中统计出来的相对频率作为概率的估计值,这种估计概率值的方法称为最大似然估计。