第五次任务之三大抽样分布

转载处:https://www.cnblogs.com/Belter/p/8280492.html

目录

  • 分位点/分位数(Fractile)
  • 卡方分布( χ 2 \chi ^{2} χ2
  • t分布
  • F分布
  • 三大抽样分布之间的联系

抽样分布就是统计量的分布,统计量包括均值、方差、比例,分布包括正态分布(样本容量n>30)、t分布(样本容量n<30)、卡方分布、F分布。下面从分位数、定义、性质和函数图像来介绍三大分布—卡方分布、t分布、F分布。

分位点/分位数(Fractile)

分位数是一个非常重要的概念,首先要明确的一点是分位数分的是面积。更准确的是,分位数分的是某个特定分布的概率密度函数曲线下的面积,每给定一个分位数,概率密度函数就会被该分位数一分为二。
在英语中,表示分位数的有两个词,区别如下:

As nouns the difference between fractile and quantile is that fractile is (statistics) the value of a distribution for which some fraction of the sample lies below while quantile is (statistics) one of the class of values of a variate which divides the members of a batch or sample into equal-sized subgroups of adjacent values or a probability distribution into distributions of equal probability.

来自https://wikidiff.com/fractile/quantile
第五次任务之三大抽样分布_第1张图片
第五次任务之三大抽样分布_第2张图片

四分位数(Quartiles)

四分位数是统计学里用的比较多的概念,属于quantile的一种,四分位数就是将一组数据按照从小到大排序后,均分为四部分的三个位置。

  • 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
  • 第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
  • 第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
  • 第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)
    确定四分位数的位置:
    Q1的位置= (n+1) × 0.25
    Q2的位置= (n+1) × 0.5
    Q3的位置= (n+1) × 0.75
    n表示项数
    举个小栗子:一组数据:1,2,3,4,5,6,先求第二四分位数Q2,如果数据个数n为奇数,取中间的那个数n+1/2,公式:如果数据个数n为偶数,取中间的两个数除以2,公式:n/2;然后求第一四分位数,(6+1)/4=1.75,Q1=10.25+20.75=1.75,;最后求第三四分位数,(6+1)×0.75=5.25,Q3=50.75+60.25=5.25第五次任务之三大抽样分布_第3张图片

卡方分布( χ 2 \chi ^{2} χ2

卡方分布是由服从标准正态分布的随机变量的平方和组成的

  • 定义
    设随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots ,X_{n} X1,X2,,Xn相互独立,都服从N(0,1),则称, χ 2 = ∑ i = 1 n X i 2 \chi^{2}=\sum_{i=1}^{n}X_{i}^{2} χ2=i=1nXi2服从自由度为n的 χ 2 \chi ^{2} χ2分布,记为 χ 2 ∼ χ 2 ( n ) \chi^{2}\sim \chi^{2}(n) χ2χ2(n)
  • 性质
    χ 2 ∼ χ 2 ( n ) \chi^{2}\sim \chi^{2}(n) χ2χ2(n),则
  • E ( χ 2 ) = n E(\chi^{2})=n E(χ2)=n D ( χ 2 ) = 2 n D(\chi^{2})=2n D(χ2)=2n
  • χ 2 \chi ^{2} χ2的可加性: Y 1 ∼ χ 2 ( n 1 ) Y_{1}\sim \chi ^{2}(n_{1}) Y1χ2(n1) Y 2 ∼ χ 2 ( n 2 ) Y_{2}\sim \chi ^{2}(n_{2}) Y2χ2(n2),且 Y 1 Y_{1} Y1 Y 2 Y_{2} Y2相互独立,则 Y 1 + Y 2 ∼ χ 2 ( n 1 + ( n 2 ) Y_{1}+Y_{2}\sim \chi ^{2}(n_{1}+(n_{2}) Y1+Y2χ2(n1+(n2),该性质可推广到有限个随机变量的情形,设 Y 1 , Y 2 , ⋯   , Y n Y_{1},Y_{2},\cdots ,Y_{n} Y1,Y2,,Yn相互独立, Y i ∼ χ 2 ( n i ) Y_{i}\sim \chi ^{2}(n_{i}) Yiχ2(ni) ∑ i = 1 m Y i = χ 2 ( ∑ i = 1 m n i ) \sum_{i=1}^{m}Y_{i}=\chi ^{2}(\sum_{i=1}^{m}n_{i}) i=1mYi=χ2(i=1mni)
  • 函数图像
    卡方分布的概率密度曲线如下:第五次任务之三大抽样分布_第4张图片
    密度函数的支撑集 (即使密度函数为正的自变量的集合) 为(0, +∞), 从上图可见当自由度 n 越大, 的密度曲线越趋于对称, n 越小, 曲线越不对称. 当 n = 1, 2 时曲线是单调下降趋于 0. 当 n ≥ 3时曲线有单峰, 从 0 开始先单调上升, 在一定位置达到峰值, 然后单下降趋向于 0。

t分布

t分布的推导最早由大地测量学家Friedrich Robert Helmert于1876年提出,并由数学家Lüroth证明。英国人威廉·戈塞(Willam S. Gosset)于1908年再次发现并发表了t分布,当时他还在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果,但允许他在不提到酿酒的前提下,以笔名发表t分布的发现,所以论文使用了“学生”(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪(Sir Ronald Aylmer Fisher)发扬光大,为了感谢戈塞的功劳,费雪将此分布命名为学生t分布(Student's t)。

当样本容量较小,n<30时,用t统计量

  • 定义
    X ∼ N ( 0 , 1 ) X\sim N(0,1) XN(0,1) Y ∼ χ 2 ( n ) Y\sim \chi ^{2}(n) Yχ2(n),且X和Y相互独立,则称随机变量 T = X Y n T=\frac{X}{\sqrt{\frac{Y}{n}}} T=nY X服从自由度n的t分布,记为 T ∼ t ( n ) T\sim t(n) Tt(n)。当n=1时,就是柯西分布。
  • 性质
    T ∼ t ( n ) T\sim t(n) Tt(n),则
  • 当n>1时,E(T)=0,当n=1时,期望不存在(参考柯西分布的期望,link)
  • 当n>2时,D(T)= n n − 2 \frac{n}{n-2} n2n,当 n ≤ 2 n\leq 2 n2时,方差不存在
  • 函数图像
    第五次任务之三大抽样分布_第5张图片
    从图6中可以看到,t(1)与标准正态分布之间的差别还是比较大的,但是当自由度n趋近于无穷大时,t分布与标准正态分布没有差别(公式上的形式将变得完全相同,这里没有列出概率密度函数的公式)。较大的区别在于,当自由度n较小时,t分布比标准正态分布的尾部更宽(fatter tails),因此也比正态分布更慢的趋近于0。关于这两类分布的异同将会在后面的假设检验部分详细阐述。

F分布

F分布是由两个卡方分布组成

  • 定义
    X ∼ χ 2 ( n 1 ) X\sim \chi ^{2}(n_{1}) Xχ2(n1) Y ∼ χ 2 ( n 1 ) Y\sim \chi ^{2}(n_{1}) Yχ2(n1),且X与Y相互独立,则称随机变量 F = X n 1 Y n 2 F=\frac{\frac{X}{n_{1}}}{\frac{Y}{n_{2}}} F=n2Yn1X服从自由度为( n 1 n_{1} n1, n 2 n_{2} n2)的F分布,记为 F ∼ F ( n 1 , n 2 ) F\sim F(n_{1},n_{2}) FF(n1,n2)其中, n 1 n_{1} n1为第一自由度, n 2 n_{2} n2为第二自由度。
  • 性质
    F ∼ F ( n 1 , n 2 ) F\sim F(n_{1},n_{2}) FF(n1,n2),则第五次任务之三大抽样分布_第6张图片
  • 函数图像第五次任务之三大抽样分布_第7张图片

三大抽样分布之间的联系

可以展示这三大抽样分布于标准正态分布的联系,以及它们自身之间的联系:
X,Y,Z相互独立,且都服从N(0,1)分布,那么:

  • X 2 + Y 2 + Z 2 ∼ χ 2 ( 3 ) X^{2}+Y^{2}+Z^{2}\sim \chi ^{2}(3) X2+Y2+Z2χ2(3)
  • X ( X 2 + Z 2 ) / 2 ∼ t ( 2 ) \frac{X}{\sqrt{(X^{2}+Z^{2})/2}}\sim t(2) (X2+Z2)/2 Xt(2)
  • 2 X 2 Y 2 + Z 2 ∼ F ( 1 , 2 ) \frac{2X^2}{Y^{2}+Z^{2}}\sim F(1,2) Y2+Z22X2F(1,2)
  • t ∼ t ( n ) t\sim t(n) tt(n) t 2 ∼ F ( 1 , n ) t^{2}\sim F(1,n) t2F(1,n)第五次任务之三大抽样分布_第8张图片
    从图9可以看到,t分布和标准正态分布都是左右对称的,偏度为0(偏度为0也可能不对称),但是卡方分布和F分布都不对称,呈正偏态(右侧的尾部更长,分布的主体集中在左侧)。

也可参考:https://blog.csdn.net/anshuai_aw1/article/details/82735201

你可能感兴趣的:(统计学)