一、从古典概型开始引入概率论的基本概念
古典概型,全称古典概率模型,也叫等可能模型,是人们最早研究的概率,也是学习概率论的起点。古典概型通过随机实验获得结果,而古典概率研究的问题有两个重要特点:结果有限,可能性一致。
1、结果有限,指的是实验能出现所有结果是有限个,比如抛硬币只能产生正反2种结果,扔骰子会得到一至六点共6种结果。
2、可能性一致,是它另一个名字等可能模型的得名的原因,所有结果的可能性相等,例如抛硬币出现正、反应的可能性是一样的,扔骰子每个点数1~6出现的可能性也是一样的。
既然每种结果有限,且每种结果的可能性也相等,那么古典概率的计算就可以视为所求情况下事件的结果个数除以所有可能的结果个数(概率=该情况下的结果个数/所有可能的结果个数),例如抛硬币总共可能有两种结果(个数=2),正面为1种可能,那么出现正面的概率为1/2,这也与现实相符。
掷骰子也类似,总共可能产生6种结果,那么其中1种的概率就是1/6,但掷骰子可以涉及到一些更复杂的情况,比如我要求的不是某一具体点数的概率,而是点数为奇数的概率,那该如何计算呢?
结果是这样的,掷出“1”“3”“5”点三种可能均满足奇数点数这个条件,即所有满足条件的结果个数有3个,用3除以所有结果数6得到1/2,点数为奇数的概率是1/2。
以所有结果1到6位一个集合,奇数个结果用黄色标出我们可以看出“点数为奇数”这个结果是由三个更基本的结果“1”“3”“5”点组成的,这种不可再分的最基本结果叫做基本事件,或者叫样本点。而“点数为奇数”则称为这种由许多个基本事件所组成的事件叫做随机事件。有了基本事件,和基本事件组成的随机事件,我们就可以进一步说明一下随机事件的一些特殊情况,比如我们规定一个随机事件为“掷出点数为1~6任一点”,那么这个随机事件就包括了所有6种可能结果,6/6=1,这个随机事件就100%必然发生,因为我们称其为必然事件。而如果规定一个随机事件“点数为7”那么这种可能属于所有可能的任一种,为0,0/6还等于0也就是说这是不可能事件。
总结一下出现的几个概念:古典概型、随机实验、基本事件、随机事件、必然事件、不可能事件。串在一起就是:古典概型进行随机实验,导致随机事件,随机事件由基本事件组成,也可能等于基本事件。概率=事件包含基本事件的个数/所有可能产生基本事件的个数 。
此外刚才讲过基本事件的另一个名称叫样本点,样本点是集合论的说法,所有可能的情况即所有基本事件加在一起,也就是所有样本点的集合叫做样本空间,样本空间英文简写Ω。随机事件用大写字母表示如A,刚才的公式也可写成:概率=A包含样本点的个数/Ω包含样本点的个数。
二、无限结果的几何概型
古典概型的结果是有限的,那么有没有无限个结果的情况呢,答案是有,这就涉及到另一种概型,几何概型。举个实际例子,在(0,1)区间上随机抽取两个数u,v,满足v平方>u的概率是多少?这就是一个几何概型问题,数轴上任何一个区间上显然都有无限多个实数,那么这种情况该怎么处理?其实总思路还是不变的,即用满足条件的可能性除以所有可能性。u、v所有可能的结果在0
三、概率的统一和公理化定义。
古典概型和几何概型是现代概率论出现前的两大分支,到了近代逐渐有人想把它们统一起来,俄国数学科尔莫洛夫在1933年首先将两种概型抽象化,提出了一个公理化定义,即概率是一个特殊的映射。
我们先说说什么叫映射,比起映射多数人肯定更熟悉一个跟映射类似的概念--函数,函数是每个自变量x的值都按一定对应法则唯一对应一个因变量y的值,简单说就是x和y一一对应。映射也类似,但区别是映射的内容可以不是数而是任意元素,所以自变量x的值可以是“硬币正面朝上”“明天下雨”之类的内容,可以写成诸如f(“正面朝上”)=1/2之类的。科尔莫洛夫也说了这是一个特殊的映射,因为该映射要满足三个条件(1)不能为负数(2)以整个样本空间为自变量后对应取值=1即可能性是100%(3)具有可列可加性。
概率是满足这三个条件的特殊映射,我们之前讲过事件一般用大写字母A、B、C等表示,而概率则用P表示,所以这个映射如取值为A就可写成P(A),根据定义P(A)最高可能性为100%,最低为0,所以 0
四、概率的函数化与随机变量
虽然概率可以被定义为映射,但映射的使用有很多局限。如果能用函数表示概率,我们就能用求导、图像等函数方法来研究概率的性质,中学所讲的正态分布图像就是概率转化成函数后得来的,所以把概率从映射再转化为函数很有必要,其实就是把因变量数字化,例如把“明天下雨”“正面朝上”这些随机事件转化为数字,然后再对应概率值,实现这个过程就要引入一个新概念----随机变量,即把样本空间中的每一个基本事件(样本点)都转化为一个唯一对应的实数,这就叫做随机变量。
随机变量用大写的X、Y、Z等字母表示,随机变量如何选择、以及用随机变量构造一个什么样的函数取决于我们要解决的实际问题,例如一个很常见的“备货问题”:用之前卖出货物的概率计算每周准备多少货物才能既不缺货也不滞销。随机变量的选取不一定用基本事件,但最好和数字相关,比如备货问题中选每周卖出的货物数量作为随机变量。
上面这个例子中随机变量X的取值就是每周卖出的货物数量0到6,对应其相应的概率,最右一列则为累积概率,可以看出存货4个就足以应对近0.95即95%的情况,所以4个是个合理的备货数字,存货问题得以解决。存货问题中我们不是用随机变量对应概率的函数解决,而是用最右边的累积概率解决的,事实上多数情况下我们要用的都是这个累加概率,把随机变量的概率累加在一起有个专门的名字---分布函数(Cumulative Distribution Function,CDF),这以后就是我们最常用的函数,而用随机变量直接对应概率则称为分布律或分布列。
五、从随机变量到分布函数与分布列
下面就举个分布列与相应分布函数的例子,在下图这个最简单的例子中X=1、2、3分别对应了概率1/4、1/2、1/4,分布列的写法一般如下所示列成表格(左下),随机变量直接对应概率形成的函数作图是离散的点函数(左上),为了方便观看有时画成柱状图(右上),而概率累加形成的分布函数(CDF)是个分段函数(右下),空心圈是分段函数的间断点,最终累加的结果为1。
随机变量的取值是非常关键的,选对了取值很多问题都会变得很直观,比如进行一次概率=p的独立重复试验(伯努利实验),有“成功”“失败”两种结果,设“成功”的值为1(即成功1次),“失败”的值为0(可以理解为失败就是成功0次)。分布列如下:
这就是《概率论与数理统计》中必背的(0,1)分布了。(0,1)分布进行了一次试验,如果我进行了n次试验,那么在刚才那个结论基础上,成功次数除了0和1之外,还可能是2、3、4...一直到n,再列出来就太多了,我们可以把它写成一个通项公式,设成功的次数0,1,2...n为k,则概率值=p的k次方乘以(1-p)的n-k次方再乘以所有可能的排列组合。如下所示:
这就是二项分布,与之类似的还有几何分布,但几何分布跟几何概型无关,以上这几种分布都是一个个点组成,即离散的,它们是古典概型的延伸,而真正的无限结果的几何概型在函数化后产生的是连续型分布。
未完待续结尾有点草率,最后发个这次讲的知识结构。