python——数理统计,概率

概率论

文章目录

  • 概率论
    • 概率与条件概率
    • 离散随机变量分布python实验
    • 连续随机变量分布python实验
  • 数理统计基础
    • 总体和样本
    • 统计量与抽样分布
    • 大数定律和 中心极限定理
  • 参数估计
    • 估计量
    • 区间估计
  • 小结及思考题

概率与条件概率

  1. 随机试验:
    ①在试验前不能断定其将发生什么结果,但可明确指出或说明试验的全部可能结
    果是什么;
    ②在相同的条件下试验可大量地重复;
    ③重复试验的结果是以随机方式或偶然方式出现
    当试验次数增加时,随机事件A发生的频率趋于一个稳定值,记为p,p就称为该事件发生的概率,记为 P(A)= p
    条件概率:表示在事件B发生的条件下,事件A发生的概率,相当于A在B中所占的比例。P(A|B)

  2. 随机变量
    按照随机变量可能取得的值,可以把它们分为两种基本类型:离散型和连续型
    离散型随机变量根据不同的概率分布有伯努利分布、二项分布、几何分布、泊松分布、超几何分布等
    连续型随机变量根据不同的概率分布有均匀分布、指数分布、正态分布、伽马分布等

离散随机变量分布python实验

  1. 伯努利分布
    两点分布或0-1分布:X~B(1, ),读作 X服从参数为p的伯努利分布。
    伯努利分布的概率分布用Python代码绘制如下:
  2. 二项分布
    随机变量X要满足这个分布有两个重要条件:①各次试验的条件是稳定的;②各次试验之间是相互独立的。
  3. 松柏分布
    它们的特点是可以预估这些事件在某个时间段内发生的总次数,但是没法知道具体的发生时间。如果某事件以固定强度a随机且独立地出现,该事件在单位时间内出现的次数(个数)可以看成是服从泊松分布。记作 X~Poisson(a)
    泊松分布可以作为二项分布的极限.
    一般来说,若 X~B( n,p ),其中 n很大, p很小,而 n*p=a 不太大时,则X的分布接近于泊松分布P(a)。

连续随机变量分布python实验

  1. 均匀分布
    其概率密度是一个常数,不随随机变量X取值的变化而变化。
  2. 指数分布
    指数分布和离散型的泊松分布之间有很大的关系。泊松分布表示单位时间(或单位面积)内随机事件的平均发生次数,指数分布用来表示独立随机事件发生的时间间隔。
    指数分布的一个显著的特点是其具有无记忆性。例如,如果排队的顾客接受服务的时间长短服从指数分布,那么无论你已经排了多长时间的队,在排x分钟的概率始终是相同的 。
  3. 正态分布
    也称常态分布,又名高斯分布(Gaussian Distribution)
    当 u=0, o=1时,该正态分布称为标准正态分布

数理统计基础

总体和样本

统计量与抽样分布

统计量是样本的某种函数。
抽样分布:

  1. 卡方分布
  2. t分布。当自由度n趋近于无穷大时, t分布与标准正态分布没有差别.当自由度n较小时,t分布比标准正态分布的尾部(Fatter Tails)更宽,因此也比正态分布更慢地趋近于0。
  3. F分布
    经常被用来对两个样本方差进行比较。它是方差分析的一个基本分布,也被用于回归分析中的显著性检验。

大数定律和 中心极限定理

大数定律揭示了大量随机变量的平均结果。
中心极限定理说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。

参数估计

分为点估计和区间估计
所谓点估计是指把总体的未知参数估计为某个确定的值或在某个确定的点上,所以点估计又称为定值估计

  1. 矩估计
  2. 极大似然估计法

估计量

准则:无偏性;有效性;一致性

区间估计

小结及思考题

  1. 什么是概率与条件概率?
    概率 :事件发生的可能性。
    条件概率讨论的是相关事件的概率。 条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。

  2. 简述大数定律与中心极限定理。
    这两个定律都是在说样本均值性质。 随着n增大,大数定律说样本均值几乎必然等于均值。 中心极限定律说,它越来越趋近于正态分布,并且这个正态分布的方差越来越小。
    大数定律是说,n只要越来越大,把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道。
    中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差。

  3. 统计学中三大抽样分布与正态分布之间的关系是什么?
    这三个分布都是基于正态分布变形得到的,在实际中只能用来做假设检验。

  4. 简述评价估计量好坏的标准。
    无偏性:估计量是随机变量,对于不同的样本值会得到不同的估计值
    有效性:有效性就是看估计量的方差值
    一致性(相合性):一致性就是在大样本条件下,估计值接近真实值。

  5. 简述样本量与置信水平、总体方差、估计误差之间的关系。

  • 样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本量也就越大。
  • 样本量与总体方差成正比,总体的差异越大,所要求的样本量也越大。
  • 样本量与边际误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量就越小。
  1. 什么是假设检验中的显著性水平?统计显著是什么意思?
    显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。
    统计显著:是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著水平。

你可能感兴趣的:(python学习,python,概率论,开发语言)