以下所有的内容都是对应到这个来写的。
这是我的问题,也是学习概率论之后应该掌握的问题。
(心情烦闷,我继续写。
删除线表明文章中有涉及。
基本上是按照1、是什么–概念,2为什么–性质&好的特点,3、应用–常见的,这三点来展开的。
为什么要在引进一维随机变量的基础之上去研究多维的随机变量?
平面有一维二维三维的,同理,变量也有一元和多元的。
首先,什么是?
对于样本空间中的每一个样本点,都有一个实值变量与其相对应,则称这个新的实值变量为随机变量(Random Variable)。
再接着,为什么要研究?
引入随机变量是为了更好地使用数学工具来研究客观随机现象背后的统计规律性,也就是这些现象发生的概率。利用这些可以帮助我们更好地进行科学的研究,以及将其运用到我们的日常生活中。
理解的更简单一点,你巴拉巴拉一大堆,我才明白你的意思,引入随机变量是方便用数据以及符号来表示我们所要研究的东西。同时,又因为里面又数据和符号,我们对于数学研究的又比较好,使用数据就有很多的运算性质,所以就要引入随机变量啦。
其中离散和连续的随机变量并不是变量的所有类型,还有那种既非随机又非连续的随机变量,比如说随机变量即可以在区间中取值,又可以在某一点取值(其概率非0.
随机变量分为两类,一类是连续型(Continuous)的随机变量,另一类是离散(Discrete)的随机变量。这里有一点需要声明的是,连续型和离散型并不是互相对立的随机变量,一个随机变量可能是两者的混合,比如它可能在一个点上出现,也可能在一个区间中出现。出现在一个点,这里我们可以将其作为离散的来计算其概率,但是到了区间的话,我们就不能够这样计算的了,这里落入区间的概率可能是0,但是不是像起先落入那个点的概率一样是一个大于0的数值。这点需要注意。
接下来再进一步介绍两类随机变量的定义。
所谓离散型随机变量是指一个随机变量的取值是有限(比如说有100,1000个)或者是可列个(这第几个随机变量可以与自然数相对应)的,那么则称这个随机变量为离散型随机变量;
而连续型随机变量是从这个随机变量的分布函数引入的。首先定义一个随机变量X,对于任意一个实数x,如果有一个关于x的函数,并且这个函数大于0,此函数从负无穷到x关于自变量t的积分称为它的分布函数,那么则称这个随机变量为连续型随机变量,此处的f(x)是随机变量X的概率密度函数。这里,概率密度函数仅仅对于连续型随机变量而言的。
其中,概率密度函数并不是在某一点取值的概率,而是在某一点取值分布的密度。打个比方,设某个随机变量的取值在 [ 0 , 2 ] [0,2] [0,2]区间中,如果在1处的概率密度比较大,那就说明在这一点附近出现的密度就比较大。这附近呢,又可以用一个区间来进行表示,用区间表示,就可以利用分布函数的定义来计算随机变量落再这个小区间的概率,在另外一个概率密度比其小的点,随机变量落在跟上面那个点附近等长度的区间的概率就会小一些。即落在某一点附近的概率比较大,注意这里的概率是指落入某一点附近的概率,不是落在某点的概率取值,连续型随机变量落在某点区间的概率为0。从几何意义上讲,其他概率密度小于这个点的地方他们在底下区间的面机会小一些,用积分的几何意义来理解会更加直观一些。
连续型随机变量的补充:连续的直观意义是,当在自变量的周围,它无限趋于一个点的时候,那么它的函数之也趋于在那一点的函数值(这实际上还是上面定义的解释)。我换句话,连续说了,是可以在一个区间种取值,当自变量变化不大的时候,它的函数的变化也不大,这就说明这个随机变量函数时连续的。
根据这个想法,就对应的到数学中的可积了,是一个函数连续,则这个函数一定可积。那么如果一个随机变量的分布函数存在的话,是不是就可以推出随机变量的pdf(probability density function-概率密度函数) 也是连续的呢,pdf连续,则随机变量在每个点取值的概率都为0.
(感觉讲述的还不是很清楚,挖坑,写点想法,待填。
随机变量其实是一个映射,将样本空间中的样本点,映射到实数空间中来。这样讲属性类的数值变量映射到实数上来可以帮助我们更好地使用数学工具去分析随机现象背后的统计规律性。这里的统计规律性是指落入某个点甚至于多个点,或者说落入某个区间的概率。在数学中有一套度量的方法可以用数字来度量这个随机事件发生的概率。引入了随机变量之后,就连续型随机变量而言,如果我们想计算落入某个区间的概率,因为这一个区间段可以表示成两个只有上限的区间的相减,这两个无限区间的概率又可以由变量的分布函数相减计算得到。如此以来,计算就非常方便了。
刚才有提及到随机变量的分布函数,不过没有细讲,现在就简单的介绍一下。直观上讲,分布函数是随机变量取值小于某个数的概率。知道一个随机变量的分布函数,我们就可以计算每个基本事件和复合事件(多个基本事件概率的和 或者是 随机变量在一个区间中取值)的概率。
在这里,分布函数有四条性质。
注:由于在正文中介绍证明会太过于繁杂,于是放在最后注释中了。
随机变量的分布函数有了,我们就想知道有哪些常见的随机变量分布函数可以研究呢?就跟之前在样本空间那一章提及到的随机变量函数一样,有古典概型和几何概型。同理这里也有一些常见的。
常见的离散分布:0-1分布,二项分布,泊松分布,几何分布,超几何分布,负二项分布。
p ( x = 0 ) = p p(x=0)=p p(x=0)=p p ( x = 1 ) = 1 − p p(x=1)=1-p p(x=1)=1−p 0 < p < 1 0 0<p<1
0-1分布,一个随机变量只有0和1两种取值状态,取1的概率为p,取0的概率为1-p。这也是伯努利试验,只有两个结果。因为我们一个现象在现实生活中不可能中出现一次,所以就有n重伯努利实验。对于某个实验,重复多次,而多次之间没有联系的话,就称这为n重独立试验。n重伯努利实验事件互不影响,则就是n重独立的伯努利试验。
P ( X = k ) = C n k p k ( 1 − p ) n − k ( k = 1 , 2 , ⋯ , n ) P \left( X=k \left) =C\mathop{}\nolimits_{n}^{k}p\mathop{}\nolimits^{k} \left( 1-p \left) \mathop{}\nolimits^{n-k}\text{(}k=1,2, \cdots ,n\text{)}\right. \right. \right. \right. P(X=k)=Cnkpk(1−p)n−k(k=1,2,⋯,n)
接下来再引入二项分布,它也是有两种情况,不过是n重独立的试验,一个现象出现k次,它的概率是多少。
介绍两点分布和二项分布之间的关系。首先,二项分布是由n个两点分布组成的,即对n重伯努利试验的分析可以分解为n个一重伯努利试验。也就是说,多个一重的伯努利试验累积形成了n重伯努利试验,其中我们关注的事件A发生的累加。再分解、累积,其实是一个分割、求和的意思。这里我们就得出结论:n重伯努利试验,即二项分布是多个两点分布的求和。
引入:一段时间内某个事件发生的次数。例如,来到某售票口买票的人数,进入商店的顾客数(最典型的例子),发射性物质放射出的质点数,热电子的发射数,显微镜下某观察范围内的微生物数。
p ( x = k ) = e − λ λ k k ! , k = 0 , 1 , 2 , ⋯ p(x=k)=\cfrac{e^{-\lambda}\lambda^k}{k!},{k=0,1,2, \cdots} p(x=k)=k!e−λλk,k=0,1,2,⋯
泊松分布的由来:泊松定理。
由一个泊松定理,将二项分布的求概率的形式转变成一个新的常见的随机变量的分布,也就是泊松分布。
它的应用条件是,当试验重复的次数n和事件A发生概率乘积当n趋于无穷的极限为一个常数,它是泊松分布的参数,构成一个新的随机变量的分布。
简单说,泊松分布是二项分布的一个一个极限分布,不过这个极限需要满足一定的条件(n>100, p<0.1)。
p ( x = k ) = ( 1 − p ) k − 1 p , k = 0 , 1 , . . . 0 < p < 1 p(x=k)=(1-p)^{k-1}p, k=0,1,... 0 p(x=k)=(1−p)k−1p,k=0,1,...0<p<1
它代表多重伯努利试验中某一个事件首次发生的概率。
比如,第k次,这个事件第一次发生,也就是说前面n-1次都不发生,前面n-1次不发生的概率乘以最后事件发生的概率就是几何分布的概率。如此由一个随机变量事件发生的概率来定义的分布称为几何分布。
P ( X = k ) = C M k C N − M n − k C N n ( k = 0 , 1 , 2 , ⋯ m , m = min { M , m } , n ≤ N , M ≤ N , n 、 M 、 N ∈ N a N u n d e f i n e d ) {P{ \left( {X=k} \left) =\frac{{C\mathop{}\nolimits_{M}^{k}C\mathop{}\nolimits_{N-M}^{n-k}}}{{C\mathop{}\nolimits_{N}^{n}}}\right. \right. }}\\ { \left( {k=0,1,2, \cdots m,m=\text{m}\text{i}\text{n}{ \left\{ {M,m} \right\} },n \le N,M \le N,n\text{、}M\text{、}N \in NaNundefined} \right) } P(X=k)=CNnCMkCN−Mn−k(k=0,1,2,⋯m,m=min{M,m},n≤N,M≤N,n、M、N∈NaNundefined)
有 N N N个产品,里面有 M M M个次品,从中抽取 n n n个产品,其中有次品的个数,这个依旧很简单。因为是抽取n个产品,我们依旧可以将其分解为n次的抽取,第一次试验,第二次试验,第三次试验等。
将抽取进行分解可以使得求解随机事件发生的期望更加地简单。不过有一点需要注意,这是抽取 n n n个产品,是相当于是n次不放回的抽取,所以事件事件发生的概率不相互独立,最后计算方差和的时候要考虑到其中的相关性,即需要计算协方差,这个也不难。
p ( x = k ) = C k − 1 n − 1 p r ( 1 − p ) k − r , ( k = 0 , 1 , 2 , ⋯ , 0 < p < 1 ) p(x=k)=C\mathop{{}}\nolimits_{{k-1}}^{{n-1}}p^r(1-p)^{k-r},({k=0,1,2, \cdots,}0 p(x=k)=Ck−1n−1pr(1−p)k−r,(k=0,1,2,⋯,0<p<1)
书中有提及到但是不常用的负二项分布,成功r次需要等待的时间的概率。
有均匀分布,指数分布,正态分布。
如果随机变量的概率密度函数为
f ( x ) = { 1 b − a , x ∈ [ a , b ] 0 , o t h e r f(x)=\left\{ \begin{aligned} \frac{1}{b-a} & ,x\in [a,b] \\ 0 & ,other \end{aligned} \right. f(x)=⎩⎨⎧b−a10,x∈[a,b],other
那么这个随机变量服从均匀分布,即 X ∼ U ( a , b ) X\thicksim U(a,b) X∼U(a,b)。
在一维的均匀分布,他是落在一个一维区间中的,而二维的均匀分布是等可能地落入到一个区域中。他们两者都是在连续区间中的等可能性,只不过是在不同维度的区间上罢了。
引入:在某一天内两个事件发生的间隔时间,服从指数分布。随机服务系统的等待时间,去银行办理业务所需要的时间;电话的通话时间;电子元件的寿命。
如果随机变量的概率密度函数为
f ( x ) = { λ e − λ x , x ∈ ( 0 , + ∞ ) 0 , o t h e r f(x)=\left\{ \begin{aligned} \lambda e^{-\lambda x} & ,x\in (0,+\infty) \\ 0 & ,other \end{aligned} \right. f(x)={λe−λx0,x∈(0,+∞),other
那么就说这个随机变量服从指数分布,即 X ∼ E ( λ ) X\thicksim E(\lambda) X∼E(λ)。
指数分布具有无记忆性。
比如上一个事情发生的时间间隔与下一个事情发生的时间间隔无关,如果在前8min没有发生这个时间的条件下,那么在前16min是否发生这个时间与前面8min是否发生这个事件无关,即它只与这个后面的8min有关。
引入:大多数随机变量当样本容量n大到一定程度(一般是不少于30)时,大多数随机变量的均值都都服从正态分布。比如,学生的身高,成绩等。
正态分布:如果一个随机变量的概率密度函数为
f ( x ) = 1 2 π ⋅ σ ⋅ e − ( x − μ ) 2 2 ⋅ σ 2 f(x)=\dfrac{1}{\sqrt{2\pi}\cdot \sigma} \cdot e^{-\cfrac{(x-\mu)^2}{2\cdot \sigma^2}} f(x)=2π⋅σ1⋅e−2⋅σ2(x−μ)2
则称这个分布为正态分布,即 X ∼ N ( μ , σ 2 ) X\thicksim N(\mu,\sigma^2) X∼N(μ,σ2)。
其中均值 μ \mu μ可以取任意实数,标准差 σ > 0 \sigma >0 σ>0 为常数。
正态分布有很多优良的性质:
(1)分布函数大于0。
(2)分布函数关于 x = μ x=\mu x=μ均值对称。
(3)有两个对称的拐点,在两个拐点之间凸,在两个拐点之外为凹。
(4)当 x x x趋于 + ∞ +\infty +∞或者 − ∞ -\infty −∞时,其概率密度函数趋于0。
(5)在对称轴左边单调增,在对称轴右边单调减。
(6)其中 σ 2 \sigma^2 σ2越大,图形越平坦,分布越分散,方差越小,图形越陡峭,分布越集中。
在离散的情况:
(1)如果原来的随机变量与随机变量的函数存在着一一对应的关系,则新形成的随机变量的函数跟原来的分布相同。
(2)否则,就直接用以前随机变量的概率的和来求得新的随机变量的分布,进而得到随机变量函数的分布列。
在连续的情况:
(1)当随机变量函数是单调函数的时候,就有一个定理可以使用。这个定理主要利用分布函数的性质,利用随机变量函数的单调性以及反函数的性质,密度函数的非负性。
(2)其他的情况,一般可以直接运用分布函数的定义取得,这里需要注意原来的随机变量与新的随机变量的取值范围。
前提:变量之间相互独立。
待续,后面学习到新的来补充。
很大一部分的内容是在复试之前写的,为了复试看了很多的东西。现在复试之后半个月,只对其进行了一些补充。
自我评价:写的没有感情。害,我也好想知道热情何时才能被点燃。可能又需要忍受重复看很多东西吧。
to be continued.
分布函数是由概率的延申过来的,概率的取值于 [ 0 , 1 ] [0,1] [0,1],所以分布函数的取值也在 [ 0 , 1 ] [0,1] [0,1]的闭区间。 ↩︎
分布函数是非降的。随机变量取值为 x 1 x_1 x1和 x 2 x_2 x2, x 1 < x 2 x_1
它是一个概率,所以必须大于等于0,即有 F ( x 2 ) − F ( x 1 ) F(x_2)-F(x_1) F(x2)−F(x1)是大于等于0的。
由函数的单调性的定义可知,分布函数是非降的。 ↩︎
这个有些麻烦,不过一个不难,它是运用x数列的极限来推导而来的。
x 1 > x 2 > . . . > x n > . . . > x 0 x_1 > x_2 > ... > x_n > ... > x_0 x1>x2>...>xn>...>x0。
这里 x 0 x_0 x0是 x n x_n xn当 n → ∞ n\to \infty n→∞的取值,即 lim n → ∞ x n = x 0 \lim\limits_{n\to \infty}x_n=x_0 n→∞limxn=x0。
因为是右连续,所以要从右边往左边靠近。
注意观察这个假设的构造,它是由 x 1 x_1 x1向 x 1 x_1 x1单调递减趋于 x 0 x_0 x0的。可以想象一个数轴, x 1 x_1 x1从 x 0 x_0 x0的右边趋于 x 0 x_0 x0,与我们所要证明的右连续相吻合。
理清一下思路,接下来我们就要证明,当 x n → x 0 ( n → ∞ ) x_n\to x_0(n\to \infty) xn→x0(n→∞)时,它的分布函数 F ( x n ) → F ( x 0 ) ( n → ∞ ) F(x_n) \to F(x_0)(n\to \infty) F(xn)→F(x0)(n→∞)的。
那我们就计算 F ( x 1 ) − F ( x 0 ) F(x_1)-F(x_0) F(x1)−F(x0)的取值,后面的项可以用一个极限来趋近表示。
另一方面,一个随机变量在两个分布函数值相减得到的数可以得到一个随机变量落到 ( x 0 , x 1 ) (x_0, x_1) (x0,x1)之间概率的取值。
这是一个趋于的状态,中间会历经很多的点,所以我们可以将这个区间分为无穷个区间的和(他们互不相容),又有概率的可列可加性,所以我们可以将求和符号取出来,先计算随机变量落入某个区间的取值,再在外面进行求和。
也就是落在 ( x 2 , x 1 ) , ( x 3 , x 2 ) , . . . , ( x n + 1 , x n ) ( n → ∞ ) (x_2,x_1), (x_3, x_2), ... , (x_{n+1}, x_n)(n\to \infty) (x2,x1),(x3,x2),...,(xn+1,xn)(n→∞)这些区间的概率和相加,上面的又是 F ( x 1 ) − F ( x 2 ) , F ( x 2 ) − F ( x 3 ) , . . . , F ( x n ) − F ( x n + 1 ) F(x_1)-F(x_2), F(x_2)-F(x_3),..., F(x_n)-F(x_{n+1}) F(x1)−F(x2),F(x2)−F(x3),...,F(xn)−F(xn+1)的概率取值的相加.
这里面有一个规律,上一项随后一项与后一项的第一个正负号相抵消,所以最终变成了 F ( x 1 ) − F ( x n ) ( n → ∞ ) F(x_1)-F(x_n)(n\to \infty) F(x1)−F(xn)(n→∞).它等于 F ( x 1 ) − F ( x 0 ) F(x_1)-F(x_0) F(x1)−F(x0),列一个等式,就知道 F ( x 0 ) = F ( x n ) ( n → ∞ ) F(x_0)=F(x_n)(n\to \infty) F(x0)=F(xn)(n→∞),右连续性得到证明。 ↩︎
也是类似与3,需要分区间。
将负无穷到正无穷分为无限个区间,所以就得到 F ( + ∞ ) − F ( − ∞ ) = 1 F(+\infty)-F(-\infty)=1 F(+∞)−F(−∞)=1;
而又有第一条性质,分布函数只能在 [ 0 , 1 ] [0,1] [0,1]内取值,两个取于 [ 0 , 1 ] [0,1] [0,1]内的数相减等于0,那么就是被减数等于1,减数等于0啦。
不好理解的话,可以想落在 [ 0 , 1 ] [0,1] [0,1]内的两个数值他们他们之差的最大值为1,那么他们各自落在哪些点上? ↩︎