我们都非常熟悉在科学研究和工程中试验的重要性。试验对我们是有用的,因为我们可以假定,在非常接近的确定条件下进行固定的试验,基本上会得到相同的结果。在这样的环境中,我们可以控制那些对试验结果有影响的变量的值。
然而在某些试验中,我们不可能断定或控制一些变量的值,虽然大多数的条件都是相同的,但每一次试验的结果会不同。这样的试验称为随机的。
由随机试验的一切可能的结果组成的一个集合S,称为样本空间。其中的每一个结果称为一个样本点。
经常会有多个样本空间能够用于描述同一个试验,但是通常只有一个会提供最多的信息。
如果一个样本空间仅有有限个数的点,则称为有限样本空间。如果有如自然数1,2,3,…那样多的点,则称为可数的无限样本空间。如果有数轴上的一个区间那样多的点,比如0≤x≤1,则称为非可数的无限样本空间。
当一个样本空间是有限的或可数的无限空间时,一般称为离散样本空间,一个非可数的无限空间称为非离散样本空间。
一个事件就是样本空间S的一个子集A,也就是一些可能结果的一个集合。当一个试验的结果是A的一个元素时,则称事件A出现了。当一个事件仅包含S的一个单一点时,常称该事件是简单的或基本的。
S自身可看作一个特殊的事件,它是一个必然的或确定的事件,因为必定会出现S的一个元素。同时空集
(∅)称为不可能事件,因为∅中没有元素会出现。
对S中的事件进行集合运算,可以获得S中的其他事件。例如,如果A和B是事件,则:
如果事件A 和B是分离的,也就是A∩B=∅,则称事件是互斥的。这意味着两者不能同时出现。如果一个事件组A1,A2,·…,An,A中的任一对都是互斥的,则称为一个互斥事件组。
在一个随机试验中总是存在不确定性,即一个特殊的事件可能出现也可能不出现。作为我们所能期望的该事件出现的机会或概率的度量,通常约定为0和1之间的一个数值。
如果我们肯定该事件一定出现,则它的概率是100%或1,如果我们肯定该事件不会出现,则它的概率是0。
又比如,当概率是1/4时,我们认为它出现的机会是25%,不出现的机会是75%。等价地,我们可以说相对它的实现反映出的优势比为75%:25%,或3:1。
存在两种重要的方法,这时一个事件的概率可以用这些方法估计出来。
占典方法和频率方法两者都有较严重的缺陷。第一种中,词“完全相似”是含糊不清的,而第二种中的“相当大”也是含糊不清的。因此数学家导出了概率的公理化方法。
假定我们有一个样本空间S。如果S是离散的,则其全部子集均视为事件,反之如果S是非离散的,则仅有一些特殊子集(称为可测的)视为事件。
对事件类C中的一个事件A,我们给以一个实数P(A)。如果下列公理能够满足,则称P是概率函数,P(A)称为事件 A 的概率:
从概率公理能够证明许多关于概率的定理,在今后的工作中它们是重要的。
如果一个样本空间S包含有限个结果a1,a2,…,an,则由定理1-5,P(A1)+P(A2)+···+P(An)=1
其中A1,A2,…,An,是由Ai={ai}给出的基本事件。
从而,我们可以选择一些非负数作为这些简单事件的概率,只要它们满足上式。特别地假定全部简单事件有相等概率,则
P(Ak)=1/n,k=1,2,…,n
如果A是一个如此的h个简单事件叠加的事件,则我们有 P(A)=h/n
这与前面给出的古典概率方法是等价的,我们也可使用其他方法确定概率,比如前面给出的频率方法。
确定概率是提出一种数学模型,这一模型是否成功必须按同样的方式作多次试验来进行检验,采用的方式在物理或其他科学中的理论也须经试验检验。
设A和B是两个事件(如图1-3),其中P(A)>0:
用P(B|A)记给定A 出现时B的概率,由于A已经出现是已知事实,它就成了新的样本空间,代替了原来的 S,这就引出定义:P(BIA)=P(A∩B)/P(A)
或: P(A∩B) = P(A)P(BIA)
上式说明事件A和B同时出现的概率等于A出现的概率乘以A已发生时B出现的概率,称P(B|A)为 A 发生时B的条件概率,也就是给定A已经发生时B将出现的概率,很容易看出条件慨率满足前面给出的公理。
如果P(B|A)=P(B),也就是B出现的概率不受A出现或不出现的影响,则称A和B是独立事件。从条件概率公式可看出这等价于
P(A∩B)=P(A)P(B),反之,如果有该式,则A和B是独立的。
对于三个事件A1,A2,A3 ,若它们每一对是独立的 P(Aj∩Ak)=P(Aj)P(Ak),j≠k,这里j,k=1,2,3
而且同时有
P(A1∩ A2∩ A3)=P(A1)P(A2)P(A3)
则称这三个事件是独立的。
注意,上面两个定义单独自身一个是不够的。多于3个事件的独立性也容易定义。
设A1,A2,…,An是一组互斥事件,它们的并是样本空间 S,也就是这些事件必有一个出现。则对任一个事件A,有下列重要定理:
定理1-11(贝叶斯法则)
老猿注:
才开始理解时,以为A必须是A1,A2,…,An中的一个,当样本空间只有A和B两个互斥事件时,则对应的贝公式为:P(A|B)=(P(B|A)P(A))/(P(A)P(A|A)+P(B)P(A|B)=P(A∩B)/(P(A)+P(A∩B))=0/P(A)=0,这样算没问题,但这样的公式没有实际意义,因为当Ak是A1,A2,…,An中的一个时,从上述公式可以得到:
同时由条件概率引出定义可以知道:P(Ak|A)P(A)=P(A|Ak)P(Ak)= P(A∩Ak),则有:
P(Ak|A) = P(A|Ak)P(Ak)/ P(A)
而由定理1-10可知:P(A)==P(A1)P(A|A1)+P(A2)P(A|A2)+…+P(An)P(A|An),因此贝叶斯法则成立。
这一公式使我们能找出可以导致A出现的各种事件A1,A2,…,An的概率。这就使贝叶斯定理经常被认为是一条关于因果概率的定理。
本文介绍了概率统计包括随机试验、样本空间、事件、概率公理定理以及条件概率和贝叶斯法则在内的一些基础知识,都是概率统计的入门知识,要理解起来还是比较容易的,但是熟练掌握应用还需要多应用。
本文内容是老猿学习美版M.R.斯皮格尔等著作的《概率与统计》的总结,有需要高数原教材电子版以及OpenCV、Python基础知识、图像处理原理介绍相关电子资料,或对文章内有有疑问咨询的,请扫博客首页左边二维码加微信公号,根据加微信公号后的自动回复操作。
更多人工智能数学基础请参考专栏《人工智能数学基础》。
如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!
前两个专栏都适合有一定Python基础但无相关知识的小白读者学习,第三个专栏请大家结合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的学习使用。
对于缺乏Python基础的同仁,可以通过老猿的免费专栏《https://blog.csdn.net/laoyuanpython/category_9831699.html 专栏:Python基础教程目录)从零开始学习Python。
如果有兴趣也愿意支持老猿的读者,欢迎购买付费专栏。