本部分主要介绍常见的随机变量及其关系。主要内容有:
- 随机变量的概念
- 常见离散随机变量
- 常见连续随机变量
在上一节从经验直观出发,引入随机事件及其概率的概念之后,为进一步研究随机现象,我们需要引入随机变量的概念。
1. 什么是随机变量
顾名思义,随机变量就是其值随机会而定的变量,正如随机事件是其发生与否随机会而定的事件。
机会表现在实验结果,一个随机试验有许多可能的结果,出现哪一个要看机会,即有一定的概率。到底是哪一个,要等掷骰子以后才知道。因此,又可以说,随机变量就是实验结果的函数。关键在于实验前后之分:前,我们不能预制其取值,“随机”;试验后,取值就确定了。
随机变量的反面是“确定性变量”,其取值遵循某种严格的规律的变量。
随机事件这个概念实际上是包含在随机变量这个更广的概念之内。也可以说:随机事件是从静态的观点来研究随机现象,而随机变量则是一种动态的观点。一如数学分析中的常量和变量的区分那样,变量概念是高等数学有别于初等数学的基础概念。同样,概率论能从一些孤立事件的概率发展为一个更高的理论体系,基础就是随机变量。
从中可以看到随机变量与随机事件的联系及其意义。简言之,随机变量是定义在样本空间上\(\Omega\) 样本点的实值函数 \(X=X(\omega)\),是随机事件的数量表示。
考虑到随机变量概念的重要性,对其此概念的介绍参见 概率论基础:补充(1)概率的公理化定义与随机变量的概念
2. 重要的离散分布
- 0-1分布:设随机变量 X 只取 0,1 两值,\(P(X = 1) = p\),\(P(X = 0) = 1 − p\),则称 X 服从 0-1 分布或 Bernoulli 分布。
- 二项分布:两个重要条件:1. 各次试验的条件是稳定的(各次试验中的概率不变),2. 各次试验的独立性。
- 几何分布:可列重复伯努利实验中第一次成功,试验的次数。\(P(X = k) = q^{k−1}p, k = 1, 2, · · ·\)。几何分布的无记忆性 \(P(ξ > m + n | ξ > m) = P(ξ > n)\)
- 负二项(Pascal)分布:命名来由一则是“负指数二项展开式”,二则是由于它与二项分布相比是“反其道而行之”:二项分布是定下总抽样个数n而把废品个数X作为变量;负二项分布是定下废品个数r而把总抽样次数减去r作为变量。
可列重复伯努利实验中第r次成功时试验次数,\(P(X_r = k) = C_{r−1}^{k−1}p^{r−1} q^{k−r}p = C_{r−1}^{k−1}p^{r} q^{k−r}\)。注意到,几何分布时负二项分布在\(r=1\)时的特例。 - 泊松(Poisson)分布:泊松分布多出现在当X表示在一定的时间或空间内出现的事件个数。泊松分布可作为二项分布的极限得到。若X服从二项分布,n很大,p很小,不太大时,X的分布接近参数为\(\lambda=np\)的泊松分布。
另外,需注意柏松分布的实际含义,另,其一个重要应用即在于对二项分布的近似。 - 离散的均匀分布:设随机变量 X 取值 \(a_1, a_2, …, a_n\), 且有\(P(X = a\_k) = {1\over n}, k = 1, …, n\)。可以看出, 离散的均匀分布正是古典概型的抽象。
- 超几何分布:抽取不放回的情况。命名是因其形式与“超几何函数”的级数展开式的系数有关。这个分布在涉及抽样的问题中常用(无放回)。\(X\)服从超几何分布,当n固定;\(M/N=p\)固定;N趋向无穷时,\(X\) 近似服从二项分布。
其数学形式比较复杂,虽然在现实中很多都是超几何分布,但当样本量很大的时候,可将其近似为放回情况,即近似为二项分布。
3. 重要的连续分布
- 均匀分布:\(U[a, b]\)
- 指数分布:\(f(x) = \lambda e^{−\lambda x} (x > 0)\)。可以看出, 参数 λ 愈大, 密度函数下降得愈快。指数分布经常用于作为各种「寿命」 的分布的近似。
指数分布的最重要的特点是 「无记忆性」,即若 X 服从指数分布,则对任意的 \(s, t > 0\) ,有\(P(X > s + t | X > s) = P(X > t)\) - 正态分布:正态分布的密度函数是以 \(x = µ\) 为对称轴的对称函数,\(µ\) 称为位置参数,密度函数在 x = µ 处达到最大值,在\((−∞, µ)\) 和 \((µ, +∞)\) 内严格单调。\(σ\) 的大小决定了密度函数的陡峭程度,通常称 \(σ\) 为正态分布的形状参数。
- 威布尔(Weibull)分布:许多产品(如轴承)的使用寿命服从威布尔分布,注意,m=1时退化为指数分布。
- 伽马 \(\Gamma(\alpha, \beta)\)分布:伽马分布与指数分布、正态分布有密切关系
- 帕累托(Pareto)分布:家庭年收入
- 贝塔分布 \(B(\alpha,\beta)\) 分布:贝塔分布与二项分布、伽马分布有密切关系。
另外,可以参看以下文章:
- 二项分布、泊松分布、正态分布的关系
- Univariate Distribution Relationships(是时候祭出这张辣眼睛的图了)
以下来谈谈自己关于各离散和连续分布的理解。
- 还是先从经典的 Binomial (0-1) 分布讲起,它给出了单次实验成功的概率分布;若要关心 n 次实验中成功的概率,则变为 Bernoulli 分布,它们之间体现的是一种「一和多」的关系;另外,这是我们从实验成功的角度来看的,或者说,是事件发生的「次数」;
- 给定试验次数(一定的时间限定),事件发生的次数分布为上述 Binomial 和 Bernoulli;那么,换一个角度,我们感兴趣的是事件的次数,所需要的次数(时间)是多少呢?这就是下面的两个:若只关心首次出现时用了多少次实验(时间),那么就服从 Geometric 分布;这是「一」,而对于「多」次事件发生所需要的试验次数(时间),则服从的是 Negative Binomial 分布;
- 上面介绍了两组离散的分布;另外注意到我在这里反复使用了时间的概念,正是想要和连续情况下对应起来:在连续情况下,一个事件在一个连续的情况下都有一定的概率发生(这时候自然没有了「实验」的概念),我们的关注点可以放在「时间间隔」上。对于事件首次发生/两次事件之间的间隔(假定独立性,这两者显然是等价的),服从的是 Exponential 分布 ,对应了离散情况下的 Geometric 分布;若考虑的是发生了多次事件所用事件,则服从 Gamma 分布 ,对应离散情况下的 Negative Binomial 分布;
- 上面是一组对应关系,那么对于 1 中是否也有这样的关系呢?这时候,因为我们关心的变为事件的「次数」了,显然是离散的了,所以没有了直接的对应关系。这里涉及到了另一个重要的分布——Poisson 分布。从某种程度上,它通过次数的概念把离散和连续变量结合了起来。一方面,我们可以把它看做是一个计数函数(参考 https://www.zhihu.com/question/34866983 ,泊松过程),描述了在一定的时间间隔下事件发生的次数,从而和 Exponential 分布相联系;另一方面,它的密度公式事实上是 Bernoulli 分布在次数很大,而事件的概率很小的情况下的极限(同时需要两者的乘积满足 \(λ=np\) ,n 很大可以看做次数越来越多,间隔越来越小趋向于连续;而在趋向连续时 p 显然趋向于 0)。