首发于微信公众号东哥夜谈。欢迎关注东哥夜谈,让我们一起聊聊个人成长、投资、编程、电影、运动等话题。
本帐号所有文章均为原创。文章可以随意转载,但请务必注明作者。如果觉得文章有用,欢迎转发朋友圈分享。
囧了,不支持 LaTeX,这下里面的公式都没法正确显示了,这可如何是好?
可以移步到我的 Gitpage 看:概率基础 - Daily Python
1 分布函数
随机变量的样本空间不方便研究,于是引入了概率分布函数来解决这个问题。概率分布取其广义含义,及随机变量的概率性质。
那么概率分布函数的定义是:
设 X 是一个随机变量,x 是任意实数,函数
称为 X 的分布函数。其中 P 为概率测度。
仔细看了看概念,觉得有点眼熟。一翻鱼老师的教案,这不就是 累积分布函数(Cumulative Distribution Function,简称CDF) 嘛。
吓人巴拉的。
2. 常用概率函数
常用的概率函数主要可以概括为以下几类:
- 根据变量求小于变量的概率
- 根据变量求大于变量的概率
- 根据概率求相应的小于变量
- 根据概率求相应的大于变量
2.1 根据变量求小于变量的概率(cdf)
比如鱼老师给庞加莱买面包的案例里,面包在 950g 和 1050g 之间的概率,就可以用正态分布变量的cdf方法,计算小于变量的概率:
p = norm.cdf(1050) - norm.cdf(950)
2.2 根据概率求相应的小于变量(ppf)
cdf 是根据变量求概率,ppf方法作用与cdf恰好相反,是根据概率求变量(Percent point function)。比如庞加莱面包案中,想知道90%的情况下买到的面包会小于多少克,就可以用这个方法
w = norm.ppf(0.9)
2.3 根据变量求大于变量的概率(sf)
还有一个sf方法可以用来计算生存函数(survival function),也很有用。它可以看成是cdf的补,即
sf = 1 - cdf
生存函数这个翻译不太好理解,残存函数(survivor function)就好理解多了。cdf表示的是之前的累积,sf表示的是残余下来的累积。比如想知道大于1050g的面包的概率,用cdf和sf就都可以。
print(1 - norm.cdf(1050))
print(norm.sf(1050))
0.0227501319482
0.0227501319482
2.4 根据概率求相应的大于变量(isf)
这个说法很拗口……其实今天这些概念都挺拗口的,毕竟作为小白,对概念们都没怎么理解明白,更是说不清楚了。等以后认知升级了再迭代吧,吼吼……罗辑思维范儿有木有……
通过概率求相应的大于对应该概率的变量,称为 Inverse survival function,也即 sf 的反函数。
3. 常见分布类型
3.1 离散型分布
离散型随机变量比较常见。非连续、分散开来的、不存在中间值的量便具有离散属性。连续貌似是数学里的一个基础概念:
连续是函数的一种属性。直观上来说,连续的函数就是当输入值的变化足够小的时候,输出的变化也会随之足够小的函数。如果输入值的某种微小的变化会产生输出值的一个突然的跳跃甚至无法定义,则这个函数被称为是不连续的函数(或者说具有不连续性)。
当然,不连续也不一定就是离散……数学的概念可真搞人!
设离散型随机变量 X 的可能取值为 xk,则称 X 取值为 xk 的概率,即事件 {X=xk} 的概率
为 X 的概率分布。离散变量的概率分布,一般可以用表格的形式来表示。
知道了离散型随机变量的概率分布,它的累积分布函数便容易求出,即
3.2 连续型分布
连续分布和离散分布的概念,感觉类似于实数和整书的概念差异。区别在于,实数和整书在坐标轴上没有什么太大差别,而连续分布和离散分布在笛卡尔坐标系里面则有明显区别。一般来说,我们用概率质量函数表示离散分布,质量函数对应的值就是概率;而连续变量则用概率密度函数来表示,相对应的概率值需要对面积积分。
3.3 二项分布(Binomial Distribution)
如果随机变量 X 的取值为0、1、2...n的概率为
则称X服从参数为n、p的二项分布,表示为 B(n, p) 。该分布的累积分布函数为
二项分布是描述n重伯努利模型的数学模型,是运用最广泛、研究最多的模型之一,是有关多次独立且重复实验的模型。n重伯努利模型的具体定义为:
设实验E的可能结果为两个互斥结果,即
且
则称这一串重复的独立实验为n重贝努力(Bernoulli)实验,或称n重贝努力概率模型。
二项分布的概率质量函数(Probability Mass Function,简写为PMF)。
二项分布的累积分布函数(CDF)。
3.4 正态分布(Normal Distribution)
正态分布最重要的两个参数,期望和方差。期望和方差确定了,正态分布曲线也就确定了。Scipy 里面用的是期望和标准差做参数,但意义都是一样的。
还记得吧?标准差的平方就是方差。
import scipy
norm = scipy.stats.norm(mean, std)
正态分布比较常见,不做过多解释。其钟形曲线的图形表示的是该分布的累积分布函数曲线。
3.5 泊松分布(Poisson distribution)
泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。
泊松分布有两个特性蛮有意思
- 服从泊松分布的随机变量,其数学期望与方差相等,同为参数λ:E(X)=V(X)=λ
- 两个独立且服从泊松分布的随机变量,其和仍然服从泊松分布。更精确地说,若X ~ Poisson(λ1)且Y ~ Poisson(λ2),则X+Y ~ Poisson(λ1+λ2)。
4. 行动
好吧,花了两天时间把笔记做完了,也查了概率论的教科书,以及维基百科,但依然没有课后基础作业的思路。
这让人情何以堪呵……
明天再过一遍鱼老师的视频。话说要是我就卡这里了,是不是就不能继续上课了啊……
5. 出处
- 维基百科众词条……
- 没有心情列了……
囧 rz……