本文是自然语言处理系列——概率&统计部分的第二篇文章,想要阅读本系列其他文章的,请移步:
要定义随机变量,必须首先定义随机试验。随机试验指的是结果不确定的实验。随机试验有两个基本特征,一是在试验发生之前结果是不确定的,二是实验是可以重复的。
随机变量就是代表随机试验发生的结果的变量。换句话说,随机变量的值“随机会而定”。请注意,这里的随机试验不单单是狭义上的试验,任何“发生之前或者观察到之前结果不确定的试验”都叫做随机试验。比如说抛掷一枚色子,测量一个班级中某人的身高等等。
一旦知道了随机试验的结果,那么这个值就不再称之为随机变量,比如说赌博的人会经常有侥幸心理:“我已经连续输了8次了,下一次应该会赢吧”。实际上,前八次随机试验已经发生了,它不会再对第九次的结果产生影响。但是只要赌局是随机的,那么每一次赌局(随机试验)的结果在赌局进行之前就是随机变量,后面可以看到,如果这个随机变量服从一定的分布,我们可以计算连续九次都输的可能性大小。随机变量有两种分类方法:
以前一看到“空间”两个字我都会头大(大概是让那些复杂的外国人名+空间的命名方法给吓得,比如希尔伯特空间等等),但是其实空间在数学里的定义大抵就是两种:一是代表某种规则的结合,比如希尔伯特空间是线性完备的内积空间,巴拿赫空间是线性完备的赋范空间等;第二种代表所有可能性的集合,样本空间就是这个意思。
因此,样本空间可以定义为随机试验的所有可能性结果组成的集合。样本空间可以是有限的,也可以是无限的。比如说抛掷一枚色子,样本空间为{1,2,3,4,5,6},测量人的身高,样本空间为[0,人类最高身高]。表示可能性的集合的空间还有很多,比如在机器学习中的输入空间、特征空间、假设空间、版本空间、输出空间等等。
样本空间规定了随机变量能取哪些值,但是我们更想知道的是取这些值的概率是多少,这时候就需要使用分布(Distribution)来刻画。在弄清楚分布之前,我们首先要搞清楚概率的两条基本特征:
这两条基本特征在任何情况下都是成立的。
概率可以用来描述分布,除此之外,还有一种叫做分布函数(Cumulative Distribution Function, CDF)的函数也可以用来描述分布。这里只讨论一维的情况。
概率分布函数的定义
假设 X X X为一维随机变量,则函数
F ( x ) = P ( X ⩽ x ) ( − ∞ < x < ∞ ) F(x)=P(X\leqslant x) (-\inftyF(x)=P(X⩽x)(−∞<x<∞) >称之为随机变量 X X X的分布函数。分布函数的定义对于离散型随机变量和连续性随机变量都成立。
分布函数有以下三条常用的性质或者结论:
离散随机变量服从的分布称之为离散分布。对于离散分布,我们只需要简单地定义样本空间中的每一个可能取值的概率就可以了。另外我们容易得到离散分布的概率和分布函数之间的关系: F ( x ) = P ( X ⩽ x ) = ∑ { y ∣ y ⩽ x } P ( y ) F(x)=P(X \leqslant x)=\sum_{ \left\{ y|y\leqslant x \right\} }P(y) F(x)=P(X⩽x)={y∣y⩽x}∑P(y)常见的离散分布有二项分布、伯努利分布、多项分布、范畴分布、指数分布、泊松分布、超几何分布等。本部分的下一篇博客中我们将看到以上常用的离散分布的性质。
离散分布数学期望的计算公式为: E ( X ) = ∑ i = 1 m x i P ( x i ) E(X)=\sum_{i=1}^mx_{i}P(x_{i}) E(X)=i=1∑mxiP(xi)
连续随机变量服从的分布称之为连续分布。连续分布的概率表示比较复杂,因为连续随机变量的可能取值为无穷多个,因此理论上连续分布的概率处处为零(如不为零,则对无穷多个非零数进行累加,得到的概率和将是无穷大而不是1)。为了解决这个问题,使用概率密度函数(Probability Density Function, PDF)来表示随机变量在每个可能取值处的“密度”。之所以称之为“密度”,是因为它的概念同我们日常讲的“单位体积的质量”的定义有一些相似之处。
在数学上,概率密度函数是使用概率分布函数来定义的:
概率密度函数的定义
设连续型随机变量 X X X的概率分布函数是 F ( x ) F(x) F(x),则它的导数 f ( x ) = F ′ ( x ) f(x)=F'(x) f(x)=F′(x)称之为随机变量 X X X的概率密度函数。
通过上面的定义我们会发现,概率分布函数实际上是概率密度函数的积分。我们可以用图2.1来别表示某个连续型随机变量的概率密度函数和概率分布函数。
图 2.1 正态分布的分布函数(左)和密度函数(右)
根据概率密度函数的定义,我们能够得到它的三条性质:
很多随机变量之间存在概率上的联系,比如说一个人的身高和体重存在一定的关联性:当身高超过1米8时,体重低于50公斤的可能性很小(默默地摸了下自己的肚子)。对于上述所说的概率,我们可以表示为 P ( 体 重 < 50 公 斤 ∣ 身 高 = 1 米 8 ) P(体重<50公斤|身高=1米8) P(体重<50公斤∣身高=1米8)。
更一般地,对于随机变量 X 1 X_{1} X1和 X 2 X_{2} X2,我们将条件概率分布表示为以下形式:
对于离散型变量, P ( X 1 = a i ∣ X 2 = b j ) P(X_{1}=a_{i}|X_{2}=b_{j}) P(X1=ai∣X2=bj)表示当 X 2 取 b j 的 时 候 , X 1 取 值 为 a i X_{2}取b_{j}的时候,X_{1}取值为a_{i} X2取bj的时候,X1取值为ai的概率
对于连续型变量, f ( X 1 = a i ∣ X 2 = b j ) f(X_{1}=a_{i}|X_{2}=b_{j}) f(X1=ai∣X2=bj)表示当 X 2 取 b j 的 时 候 , X 1 取 值 为 a i X_{2}取b_{j}的时候,X_{1}取值为a_{i} X2取bj的时候,X1取值为ai的概率密度函数
我们很容易还会想到,当 X 2 X_{2} X2取尽所有值时, X 1 X_{1} X1的取值不再受到 X 2 X_{2} X2的影响,也就是说:
对于离散型变量, ∑ j = 1 n P ( X 1 = a i ∣ X 2 = b j ) P ( X 2 = b j ) = P ( X 1 = a i ) \sum_{j=1}^{n}P(X_{1}=a_{i}|X_{2}=b_{j})P(X_{2}=b_{j})=P(X_{1}=a_{i}) j=1∑nP(X1=ai∣X2=bj)P(X2=bj)=P(X1=ai)
对于连续型变量, ∫ − ∞ ∞ f ( X 1 = a i ∣ X 2 = b j ) f ( X 2 ) d X 2 = f ( X 1 = a i ) \int_{-\infty}^{\infty}f(X_{1}=a_{i}|X_{2}=b_{j})f(X_{2})dX_{2}=f(X_{1}=a_{i}) ∫−∞∞f(X1=ai∣X2=bj)f(X2)dX2=f(X1=ai)
这就是所谓的全概率公式。
相对于全概率公式,在条件概率中我们用到的最多的是贝叶斯公式。在认识贝叶斯公式之前,我们先来理解联合概率。前面讲的条件概率描述了已知一个随机变量的值时另一个随机变量的概率(或概率密度)大小,而联合概率描述的是两个随机变量的取值大小。不失一般性, P ( X 1 = a i , X 2 = b j ) P(X_{1}=a_{i},X_{2}=b_{j}) P(X1=ai,X2=bj)表示了随机变量 X 1 和 X 2 X_{1}和X_{2} X1和X2的联合概率,意义为 X 1 = a i 且 X 2 = b j X_{1}=a_{i}且X_{2}=b_{j} X1=ai且X2=bj的概率大小。我们也可以把这种情景推广到连续型随机变量的概率密度上(为了表达简单,以下暂时只讨论离散型情况,在不特别说明的情况下,连续型随机变量同样适用)。
贝叶斯公式实际上描述了条件概率和联合概率的关系,首先,我们有:
P ( X 1 = a i ∣ X 2 = b j ) = P ( X 1 = a i , X 2 = b 2 ) P ( X 2 = b j ) P(X_{1}=a_{i}|X_{2}=b_{j})=\frac{P(X_{1}=a_{i},X_{2}=b_{2})}{P(X_{2}=b_{j})}_{} P(X1=ai∣X2=bj)=P(X2=bj)P(X1=ai,X2=b2)
这很容易理解,想象一下联合概率是两个随机变量不确定时的概率,而条件概率是一个随机变量确定的情况下,另一个随机变量取值的概率。如果我们使用 P ( X 2 = b j ) P(X_{2}=b_{j}) P(X2=bj)做分母,实际上是把 X 2 = b j X_{2}=b_{j} X2=bj以概率的形式确定了下来,得到的自然是条件概率 P ( X 1 = a i ∣ X 2 = b j ) P(X_{1}=a_{i}|X_{2}=b_{j}) P(X1=ai∣X2=bj)。当然,以上公式 有严格的证明,我们这里不做讨论。
因为随机变量 X 1 X_{1} X1和 X 2 X_{2} X2是对称的,因此我们有: P ( X 1 = a i , X 2 = b 2 ) = P ( X 1 = a i ∣ X 2 = b j ) P ( X 2 = b j ) = P ( X 2 = b j ∣ X 1 = a i ) P ( X 1 = a i ) {P(X_{1}=a_{i},X_{2}=b_{2})}=P(X_{1}=a_{i}|X_{2}=b_{j})P(X_{2}=b_{j})=P(X_{2}=b_{j}|X_{1}=a_{i})P(X_{1}=a_{i}) P(X1=ai,X2=b2)=P(X1=ai∣X2=bj)P(X2=bj)=P(X2=bj∣X1=ai)P(X1=ai)
以上公式可以转化成 : P ( X 1 = a i ∣ X 2 = b j ) = P ( X 1 = a i , X 2 = b j ) P ( X 2 = b j ) P(X_{1}=a_{i}|X_{2}=b_{j})=\frac{{P(X_{1}=a_{i},X_{2}=b_{j})}}{P(X_{2}=b_{j})} P(X1=ai∣X2=bj)=P(X2=bj)P(X1=ai,X2=bj)
或者: P ( X 2 = b j ∣ X 1 = a i ) = P ( X 2 = b j , X 1 = a i ) P ( X 1 = a i ) P(X_{2}=b_{j}|X_{1}=a_{i})=\frac{{P(X_{2}=b_{j},X_{1}=a_{i})}}{P(X_{1}=a_{i})} P(X2=bj∣X1=ai)=P(X1=ai)P(X2=bj,X1=ai)
我们还可以用全概率公式将贝叶斯公式的分母表示出来,也就是 P ( X 2 = b j ) = ∑ i = 1 m P ( X 1 = a i , X 2 = b j ) P ( X 1 = a i ) P(X_{2}=b_{j})=\sum_{i=1}^{m}P(X_{1}=a_{i},X_{2}=b_{j})P(X_{1}=a_{i}) P(X2=bj)=i=1∑mP(X1=ai,X2=bj)P(X1=ai)
利用贝叶斯公式,我们知道了任何两个概率,就可以求其它概率了。
未完待续
未完待续
在讲述贝叶斯概率的时候,我们认识了先验分布和后验分布,在实际应用贝叶斯方法时,如果后验分布与鲜艳分布属于同类,则先验分布和后验分布被称为共轭分布。关于共轭分布的更多内容,我们将在讲解最大似然估计(MLE)和最大后验估计(MAP)时讲解。
频率收敛于概率,未完待续
简单地说,和的分布收敛于正态分布的定理叫做“中心极限定理”,未完待续