概率分布基本概念,符号表示法 (概统2.符号)

概率分布基本概念,符号表示法 (概统2.符号)

前面一章,我们计算某事件某结果的概率,会用P(A), P(B),或者P(A1),P(B1)来表达
对于条件概率,我们会用 P(A|Bj) P ( A | B j ) 来表达 Bj B j 条件下发生A结果的概率
本章中,我们关注事件发生的所有可能结果,会将括号内的A,B等符号用一个表达式来表示,

1) 对离散型随机变量, P{X=k}或者P{X= xi x i },叫做分布律

X为事件的随机结果,k或者 xi x i 为X的某个具体取值。
比如说射击n次,射中次数是一个0到n的随机数,用X表示,如果要表示射中次数为1次的概率,k取1,P{X=1}就表示射中次数等于1的概率。

2) 对离散型随机变量, F(X) = P{a< X<=b } = <=bi>api ∑ i > a <= b p i ,叫做分布函数, 它表示某个区间内的概率总和。

如果要表达射中次数在某个范围内,比如要表达射中次数小于等于3次的概率,用P{X<=3},如果要表达射中次数在2次到4次,用P{2< X< 4};

F(X) = P{X<= xi x i } = i<=xipi ∑ i <= x i p i
或者F(X) = P{a< X<=b } = <=bi>api ∑ i > a <= b p i

X为事件的随机结果,
xi x i , 或者a, b 表示随机结果的取值范围,
F(X), 或者 P{X<= xi x i } ,或者 P{a< X<=b } 表示在这段取值范围内的概率总和。叫做分布函数

[举例] 事件 : 射击n次

随机变量X/射中次数 0 1 2 …. n
概率 P/射中次数的概率 p0 p 0 p1 p 1 p2 p 2 pn p n

还是射击n次的例子,假设要表示射中次数大于1次,小于等于3次,就取a=1,b=3,F(x) = P{1< X<=3 } 就表示射中次数在1到3之间的分布函数,也就是1到3(包含3)的概率总和。
同理 F(x) = P{X<=3}表示射中次数小于等于3的所有概率总和,也是分布函数。


3) 连续型随机变量在某个点的概率,用概率密度f(x) 来表示。

对于连续型随机变量,比如数据样本量大的事件,可以近似看成连续型随机事件,对应于分布律,用概率密度 f(x)来表示某一点的概率,f(x)为0到1之间的概率数,f(x)的所有积分等于1
0<= f(x)<= 1
f(x)dx=1 ∫ − ∞ ∞ f ( x ) d x = 1

4) 连续型随机变量,在某一区间段内的概率积分F(X) 叫做分布函数

F(X) = P{X<=x}= xf(x)dx ∫ − ∞ x f ( x ) d x
F(X) = P{a< X<=b}= baf(x)dx ∫ a b f ( x ) d x

[举例] 事件 : 成年人身高
比如成年人,身高在140cm到190cm(包含)的概率分布,可以用
F(X) = P(140< X<= 190) = 190140f(x)dx ∫ 140 190 f ( x ) d x


[提一个问题]

离散型的分布律,连续型的概率密度都好理解,就是不同的取值对应不同的概率,
但是,为什么分布函数要用求和(离散型)或者求积分(连续型)的方式呢?

这是因为实际情况中,求概率往往不是只求一个点的概率,而是求一个连续区间段内的概率,而且只有离散型随机变量,单个点的概率才有意义,在连续型随机变量中,单个点的概率近似为0,只有一个区间的概率有意义,为了计算某个区间段内的概率更方便,将分布函数定义为概率累积,其实这就是前面博文写过的轮盘赌算法。

例如 , 经常需要计算 位于某段区间的概率,P{a< X <= b} ,
如果分布函数是概率累计,那么 P{a< X <= b} = F(b) - F(a)

分布函数(轮盘赌)的算法,就是把所有概率都整合到一条 [0,1]的直线上的算法。
参考【算法实例】—清扫机器人罗比与遗传算法,轮盘赌算法
在遗传循环中,选择上一代优秀个体中,就是使用轮盘赌算法。将所有的个体计算各自得分比率,然后整合到一条[0,1]的直线上。

概率分布基本概念,符号表示法 (概统2.符号)_第1张图片


1. 问题关注点:所有结果的概率分布**

在前面一章中,我们关注了某个概率性事件出现某个特定结果的概率。比如说:

射击,连续射击4次,恰好击中1次的概率。
射击,连续射击n次,恰好击中k次的概率。
次品问题,从几箱次品成份不同的产品箱中任取一箱中的任意n只,取到1件次品的概率,取到2件次品的概率。
配对问题,n双完全不同的手套(n双里面没有一双是相同的),任取2r只,取了以后完全没有成对的概率是多少?有一双成对的概率是多少?有两双成对的概率是多少?
乱序问题,n把锁n把钥匙完全乱序,现将锁和钥匙随机配对,有1把锁和钥匙能配对的概率是多少?有2把锁和钥匙能配对的概率是多少?

这些,都是求概率事件某个特定结果的概率。但是在现实需求中,在大数据的环境下,我们更多需要关注概率事件所有可能取值结果的规律,可能需要分析所有的取值结果,每一种取值结果对应的概率。
比如,还是前面那几个问题,我们需要关注:

射击,连续射击4次,有可能击中0次,也有可能击中1次,也有可能击中2次,3次,最多击中4次。我们需要分析,击中0次的概率是多少?击中1次的概率是多少?击中2次,3次,4次的概率是多少?
射击,连续射击n次,有可能击中0次到n次,我们需要分析,击中0次到n次,出现每个每个结果的概率。

次品问题,从几箱次品成份不同的产品箱中任取一箱中的任意n只,根据次品率的不同,有可能取到0件次品,1件次品,2件,..n件,我们需要分析所有结果,从0件次品到n件次品,每个结果对应的的概率 。

配对问题,n双完全不同的手套(n双里面没有一双是相同的),任取2r只,取了以后能够配对的手套有可能是0双,有可能是1双,,,也有可能r双, 我们需要分析,从0双到r双每个结果对应的概率是多少?

乱序问题,n把锁n把钥匙完全乱序,现将锁和钥匙随机配对,有可能完全没有锁和钥匙能配对,也有可能有1把锁和钥匙能配对,也有可能有2把能配对,,,,直到有n把能配对,我们需要分析所有的结果,每一种结果对应的概率是多少?

上一节中,我们还关注了条件概率,已知某个事件的某个结果已经发生,例如3箱次品率不同的产品箱子,随机取样,已经取到一件是次品,求它是来自A箱的概率。A,B,C三人同时射击敌机,已知敌机已经被击落,求它是A击中的概率。等等,这些是条件概率的问题,已知结果,求发生的原因的概率。

2. 符号表达**

前面我们学到, P(A),表示对于某个概率事件,结果为A的概率
条件概率 P(A|Bj) P ( A | B j ) ,表示 Bj B j 条件下发生A结果的概率。

比如,射击,连续射击n次,恰好击中1次的概率,我们可以用P(A)来表示,但是,考虑到符号资源的紧张性,也可以用P(A1)来表示。那么击中2次的概率呢?也可以用P(B)来表示,也可以用P(A2)来表示,同理,击中n次,也可以用P(An)来表示,那么如果击中次数少于等于k次呢?怎么表示?这时,我们需要定义一个变量,比如X,击中次数少于m次就是X<=k,那么击中次数少于等于k次的概率表达就是P{X<=k},相当于将括号内的A,换成一个表达式X<=k。同理,击中次数等于k的概率,可以表示成P{X=k},在这里X是射击事件发生的某个结果,是一个随机变量,X是一个随机变量,k是随机变量的某一个取值

1).对于离散型随机变量来说,

P{X=k} = pk p k ,k=0,1,2…n
称为X的分布律(随机变量X的概率分布规律)

P{X<=k} = pk ∑ p k , 称为离散型随机变量的分布函数
F(X) = P{X<= xi x i } = pi ∑ p i , F(X) 称为离散型随机变量的分布函数

2).对于连续型随机变量,比如数据样本量大的事件,可以近似看成连续型随机事件,

对应于分布律,用概率密度 f(x)来表示某一点的概率,
0f(x)1;f(x)dx=1 0 ⩽ f ( x ) ⩽ 1 ; ∫ − ∞ ∞ f ( x ) d x = 1

某一区间段内的概率总和叫做分布函数,F(X) = P{X<=x}= xf(x)dx ∫ − ∞ x f ( x ) d x
P(a< X<= b) = F(b)-F(a) ,某个区间段内的概率,等于分布函数的上限-下限
连续型的分布函数也经常用 Φ(x) Φ ( x ) 来表示,比如正态分布

你可能感兴趣的:(概率论与数理统计,随机变量,符号表示)