离散数学及其应用——ch6 离散概率论

      可以说概率论和组合计数同宗同源——都源于人类对赌博的热爱,概率论旨在对不确定性进行研究,比如买彩票是否会中奖等等。本章介绍概率论的一个子集,离散概率论,多说一句,概率论是测度论的一种特殊情况。
     要学习概率论,就得先弄明白几个基本的概念:样本空间,(随机)试验,事件和结果。(随机)试验是某种过程,这个过程总会产生某个结果,比如我们掷一个骰子,或者从扑克牌中任意挑出一张牌,都会产生一个结果,那么这些所有可能的结果就构成了一个样本空间,而事件就是样本空间的一个子集。我们可以来打这样一个比方,样本空间就像一个罐子,而结果就是罐子中的五颜六色的糖果,试验就好比勺子,每次都能从罐子中舀出一颗糖果来,而所有红色的糖果就构成了一个事件E,如果要问捞出红色糖果的概率,就是在问E的概率。
     很早的时候,伟大的数学家拉普拉斯就定义了一个朴素的概率定义,这个定义的基础是假设所关心的样本空间是由一系列有限个等可能的结果构成的。因此事件E的概率就是集合E的元素个数除以样本空间中结果的个数。由此我们还可以定义组合事件的概率,比如E的补集概率,E和F并集的概率。
     那要是样本空间中的结果不一定等可能又怎么办呢?这时候我们就需要将这个朴素的定义推广一下,设S是由有限个,或无限但可数的结果构成的集合,那么对其中每一个结果s,我们给它们指派一个概率p(s),它被称为概率分布,满足两个性质:(i)其值在[0,1]之间;(ii)所有p(s)求和的值为1。为了对随机试验进行建模,p(s)实际上应该等于s出现的次数除以试验次数n,当n趋于无穷的极限。对其数学意义的诠释就是:当随机试验的次数趋近于无穷时,s出现的次数所占比率变成了真正的概率。有了推广的概率定义,我们也可以将组合事件概率进行推广了,不过这还不够,还有很多新的概念引入,条件概率就是一个重点,如果我们知道某个事件F发生了,那么它会对E产生影响吗?这就要看P(E)和P(E|F)的值了, P(E|F)以F为样本空间,如果 P(E)和P(E|F)的值相等,说明事件E和事件F是“独立的”,也就是说P(E与F的交集) = P(E)P(F)。另外一个新的概念就是随机变量X,它既不随机,也不是变量,它是函数,它为样本空间中每个结果s都分配一个实数r,而随机变量可以看成是对样本空间的某种测量,比如我们同时掷两个骰子,那么样本空间为二者的点数时,我们可以将随机变量定义为点数之和或点数之差。“(r,P(X=r))”称为随机变量X的分布。若对所有的r1和r2,有P(X(s) = r1 且 Y(s) = r2) = P(X(s) = r1) * P(Y(s) = r2),那么我们说X和Y是两个独立随机变量,且它们的期望满足E(XY) = E(X)E(Y)。
     概率论的应用有三个方面,一是作为证明方法的“概率方法”,它可用于非构造性的存在证明中,证明某性质的元素在集合中存在的概率大于0;二是蒙特卡罗算法,一种与确定性算法不同的概率算法;三是贝叶斯定理,可用于筛选和鉴别垃圾邮件。由一般的概率分布我们也得到了几个特殊的概率分布函数,首先是均匀分布,也就是p(s) = 1/|S|,如果我们在满足均匀分布的概率空间中任意挑出一个元素,那么这个过程叫做随机选择;然后是二项分布,它是由伯努利随机试验得到的,其期望和方差分别为np和npq;最后是几何分布,设成功的概率为p,那么第k次尝试才第一次成功的概率是多少呢?由几何分布给出,它的期望是1/p。
     最后,我们来看随机变量的两个重要性质——期望和方差。先说说期望吧,期望的数学意义可以说是随机变量值的加权平均,也可以说是随机变量分布的中心点。因此它的两种定义(样本空间和随机变量值空间)都是在数学意义上等价的。随机变量的期望有线性性,这是一个非常实用的性质,可以解决很多看起来很难的问题,解决的策略就是“分而治之”,把随机变量拆成一串Xi的值相加,Xi比X好算,分别计算Xi,然后累加得到X的值。因此,结合线性性我们可以用期望来评估算法的平均情况计算复杂度。设aj为算法的输入,设X为当aj作为算法输入时,算法执行的操作次数,并且基于某些对输入的认识我们有关于aj的概率p(aj)(比如各种输入都是等可能的,那么 p(aj) = 1/n),那么我们就可以计算X的期望,得到平均比较次数E(X)。如果说E(X)表示的是随机变量分布的中心点,那么V(X)的数学意义就是随机变量值的散布程度。如果我们对V(X)开方,得到的就是标准差。 V(X)的公式咋一看很复杂,因此我们常用推导出来的公式来计算方差,简言之“平方的期望减去期望的平方”。若Xi是两两独立的随机变量,那么 V(X1+X2+…Xn) =  V(X1) + V(X2) + … +V(Xn)。最后,又期望和方差我们得到两个概率不等式,一个叫切比雪夫不等式,一个叫马尔可夫不等式,它们的证明方法都相同,能够加深对基本概念的理解。

你可能感兴趣的:(F,数据科学)