数据挖掘概率基础

1)随机现象

根据客观现象的特征,将其分类两类:一类是确定性现象,在一定条件下必然出现(或不出现)某种结果的现象;另一类是随机现象,在给定的条件下不能确切预言其结果的现象,可在相同条件下重复进行观察或试验,而每次观察或试验的结果不止一个,且事先无法预知确切的结果。在不确定的现象中,还有一种无法重复观察或试验的情况,如无法确定2050年会不会爆发世界大战,这种一次性不可重复的现象称为不确定现象。

概率研究的对象是随机现象。虽然随机现象每次的结果具有偶然性,但在大量观察或多次重复试验后其结果常常会呈现出某种规律性。

2)随机事件

对随机现象进行观测也称作随机试验。随机试验的每一种结果或随机现象的每一种表现都称作随机事件,一般用大写字母A、B、C,….表示。

基本事件:不能再被分解为两个或两个以上的事件。基本事件是随机试验的最基本结果,每次试验必出现一个基本事件,任何两个基本事件都不会同时出现。

复合事件:由两个或两个以上基本事件所组成的事件。

一项随机试验的所有基本事件的集合,称作该随机试验的基本事件空间。必然事件是每次试验都一定出现的事件,记作Ω。任何一次试验都不可能出现的事件称为不可能事件,记作Φ。

事件的关系有包含和相等,事件的运算有和(并)、差、交(积)、逆。

包含:关系式A⊂B表示若A出现则B也出现,反之则未必;

相等:关系A=B表示事件A和B同时出现或都不出现;

和(并):运算式A+B或A∪B表示A和B中至少出现一个;

差:运算式A-B或A\B表示事件A出现但B不出现;

交(积):运算式A∩B表示事件A和B同时出现;

逆事件: 表示A不出现,是A的对立事件;

不相容:若AB=Φ,则A与B不可能同时出现,称A和B不相容。

3)概率概念和性质

对于一个随机事件来说,它在一次试验中可能发生,也可能不发生。既然有可能性,就有可能性大小的问题。事件A在随机试验中出现可能性大小的数值度量,称做概率。事件A的概率以P(A)表示。

在相同条件下,重复进行同一随机试验,A是这个试验的一个结果(事件)。设试验次数为n,在n次重复试验中A出现的次数为nA,则事件A的频率为:nA/n=Pn(A)。当试验次数n较小时,频率的数值有较大的波动,但n充分大时,频率数值的波动明显减弱,并且随着n的增长,频率会趋于稳定在某个常数p附近。

随机试验的频率具有随试验次数增加而趋向稳定的性质,而频率的稳定值可以用来反映事件发生的可能性大小。因此,可以说频率的稳定值p是事件A发生的概率, 即P(A)=p。要注意区别频率和概率,虽然二者都是事件出现可能性大小的度量,但频率是试验值,依赖于试验的次数,即使试验次数相同,频率也可能取值不同,频率具有随机性;而概率则是独立于试验而客观存在的理论值,其大小取决于事件本身固有的规律性。当然在实际应用中,常常通过大量重复试验得到事件发生的频率,且以它作为概率的近似值或估计值。频率是试验值,随机的;概率是理论值,规律的。

设事件A的概率为P(A),则具有如下性质:

非负性,即0≤P(A)≤1;

规范性,对于必然事件Ω,有P(Ω)=1;

对于随机事件Ai(i=1,2,…),只要它们两两互不相容,则有: 

4)概率的估计和计算

概率的直接计算有两种场合:古典型概率和几何型概率,古典型概率用事件个数比率计算,而几何型概率则是用几何度量比率。

也可以用频率直接估计概率。

也可以使主观概率,如专家估计。

概率的计算公式:

概率的加法法则:任意两个事件P(A+B)=P(A)+P(B)-P(AB),不相容事件P(A+B) =P(A)+P(B)。

条件概率:P(A|B)=P(AB)/P(B),在事件B发生的条件下,事件A发生的条件概率。

概率的乘法公式:P(AB)=P(B)P(A|B)=P(A)P(B|A)。

你可能感兴趣的:(数据挖掘概率基础)