根据随机变量的定义我们知道它其实是关于样本空间的函数,同样,二维随机变量也是关于样本空间的函数。只不过这里是关于样本空间的两个函数。比如样本空间是某地区全部学龄前儿童,那么它们的身高和体重就是关于样本空间的两个函数(或称映射),所以它们也是定义在样本空间S上的两个随机变量。
一般来讲,多维的随机变量都是关于一个样本空间的。在机器学习中,常用多维随机变量描述一个事物的多重属性,然后用统计学知识(如朴素贝叶斯、贝叶斯网络)解决实际问题(如将事物进行分类)。
取值对(X,Y)的取值是也有限对或可列无限多对。同样常用分布律来描述二维离散型随机变量的分布。
(X,Y)的取值是无限多且不可列。常用联合分布函数和联合概率密度来描述二维离散型随机变量的分布。
我们知道一维随机变量的分布函数描述的是该变量X从负无穷到X=x的概率。对于二维随机变量来说,我们想要将(X,Y)作为一个整体进行研究,所以产生联合分布函数。他其实描述的是在(X,Y)的取值,以及事件在某个取值范围(矩形范围)发生的概率。
f(x,y)就称为联合概率密度函数。f(x,y)虽然不能表示取值X=x,Y=y的概率,但是他能表示点(X,Y)落在小长方形的可能性的高低(跟其他点相比)。特别地,当小长方形的长和宽都是1时,则点落在该长方形的概率就是
这里举一个二维正态分布的概率密度函数的例子:
如果(X,Y)服从二维正态分布,那么它的概率密度函数为:
边缘分布其实就是多维随机变量中的其中一维随机变量的分布函数。
对于离散型而言
对于连续型而言
有了边缘分布函数,自然有边缘概率密度函数,根据定义及上面的式子有:
y的情况也相同。
事实上,我们根据二维正态分布的概率密度,求出其边缘概率密度,发现边缘概率密度正是一维正态分布的的概率密度。
条件分布是由条件概率而来的。
对于离散型而言,我们用条件分布律来描述。
对于连续型而言,它的分布函数就跟我们前面的推理不同。这是为什么呢?首先我们的首要任务是估计事件在某个取值附近发生的可能性大小,分布函数和概率密度函数的定义都是为估计该可能性大小而服务的。(在这里可能性大小用于点与点的比较,不代表概率大小)
由于连续型随机变量的特殊性,我们只能定义任意确定点的概率都是零,才能保证总体概率等于1的事实。所以用了概率密度来描述事件发生在该点的可能性,事实上,可以通过比较两个点的概率密度大小来比较事件发生在两个点的可能性大小(注意不是概率大小)。所以我们就定义这样一个概率密度来衡量。概率密度函数可以人为挑选,但他必须满足下面的式子。
在我的猜测中,数学家们应该是先定义了概率密度来衡量可能性大小,再引入分布函数,利用它们的差值求得一定范围内的概率的。
然后回到条件分布,我们想要衡量已知事件在Y维度上为Y=y,求其在X维度上X=x的可能性大小。那我们怎么去挑选这样一个概率密度函数呢,但是由于X,Y的概率密度函数以及它们的联合概率密度都已经确定,我们没有自己挑选的余地,只能根据已知量去求。
根据上面我们知道概率密度函数在某个区间的积分就是该区间的概率值,所以我们可以先求出任意区间的条件概率,然后根据概率反求出概率密度函数。
下面假设区间的长宽都是epsilon,那么区间上的条件概率,也就是已知事件在Y维度上范围是为(y,y+epsilon),其在X维度上范围是(x,x+epsilon)的概率为:
而由于极小,所以我们可以将上式转化为:
回顾一维变量,,是事件发生在X=x附近的小区间的概率,
是概率密度,它可以用来衡量事件发生在X=x点的可能性大小。
根据相同的推理,根据上面式子,就是条件概率密度,它可以衡量已知事件在Y维度上是y,求其在X维度上范围是x的可能性大小(注意不是概率大小)。
所以最终条件概率密度。经过证明它的积分
确实是等于1的。笔者发现这里的y只能是给定的值,而不是给定的范围。因为上面的epsilon之所以能直接抽取出来,正是因为该范围无限的小,区间内概率密度相同的假设才能成立。而范围无限的小,求极限之后就可以视作一个具体的值。
另外如果y不是给定的值,而是给定的范围,那么上面的epsilon就不能直接抽取(大区间的的每个点的概率密度是不同的),那么它就没有可以用式子表示的概率密度,同时也没有可以用式子表示的分布函数。
所以知道了y是一个确定值,同时知道它的概率密度,我们就可以定义条件分布的分布函数:
假设两个随机变量是相互独立的,也就是Y的发生,不会影响X发生的可能性大小。
有下面的式子,其中P(X)代表P(X=x),即取某个值的概率
进而有
也即
对两边求全微分,可得
证明:
所以:
根据概率密度的定义即可以得到上面的式子。
证明过程与上面类似,主要是变量的替换和积分区间的变换。
证明:
【1】概率论和数理统计