统计学基础之统计量及其分布

总体与样本

  • 总体:研究对象的全体,总体即分布。
  • 个体:构成总体的每一个成员。
  • 样本:从总体中抽出n个个体组成样本。
  • 样本容量:样本中的个体数n。
  • 简单随机抽样

    • 抽样过程具有随机性,即每个个体有同样的概率被抽到,每个样本与总体具有相同的分布。
    • 抽样过程具有独立性,即每个个体被抽取不影响其他个体被抽取。

统计量及其分布

  • 统计量:设$x_1,x_2,x_3…x_n$是取自某总体的样本,若样本函数$T = T(x_1,x_2,x_3…x_n)$中不含任何未知参数,则称$T$为统计量。

  样本均值、方差等都是样本统计量。

  • 定理1:样本观测值与均值的偏差平方和最小,即在$\sum(x_i-c)^2$中,$\sum(x_i-\bar x)^2$最小.

证明:$$\begin{split}\sum (x_i-c)^2&=\sum(x_i-\bar x+\bar x-c)^2\\&=\sum(x_i-\bar x)^2+\sum(\bar x -c)^2+2\sum(x_i-\bar x)(\bar x -c)\\&=\sum(x_i-\bar x)^2+\sum(\bar x -c)^2\end{split}$$

  • 定理2

    • 若$$X\sim N(\mu,\sigma^2)$$则$$\bar x\sim N(\mu,\frac {\sigma^2}{ n})$$
    • 若$X$分布未知或不是正态分布,但$EX=\mu,DX=\sigma^2$,则$\bar x$近似服从于上述分布。

  以上两条定理可分别通过卷积公式和中心极限定理证明。

  • 定理3:设总体$X$有二阶矩,即$EX=\mu,DX=\sigma^2$,则$$E(\bar x)=\mu,D(\bar x)=\frac {\sigma^2}n,E(s^2)=\sigma^2$$
  • k阶原点矩:$$a_k=\frac 1n\sum x_i^k$$
  • k阶中心矩:$$b_k=\frac 1n \sum(x_i-\bar x)^k$$
  • 次序统计量:将样本$x_1,x_2,x_3…x_n$按照从小到大的顺序排列,$x_{(i)}$称为第i次序统计量。次序统计量既不独立也不同分布。

三大抽样分布

伽马分布

伽马函数

  • 伽马函数:$$\Gamma(\alpha)=\int_0^{\infty}x^{\alpha-1}e^{-x}dx$$
  • 性质1:$$\Gamma(1)=\int_0^{\infty}e^{-x}dx=1$$
  • 性质2:$$\Gamma(\frac 12)=\sqrt \pi$$

证明:$$\begin{split}\Gamma(\frac 12)&=\int_0^{\infty}x^{-\frac 12}e^{-x}dx\\&=2\int_0^{\infty}e^{-t^2}dt\\&=\sqrt\pi\end{split}$$

  • 性质3:$$\Gamma(\alpha+1)=\alpha\Gamma(\alpha)$$

可用分部积分证明。

伽马分布

若$X$的概率密度函数为$$\begin{split} f(x)=\frac {\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x} ,x\geq0\end{split}$$
则称$X$服从伽马分布,记作$X\sim Ga(\alpha,\lambda),\alpha>0,\lambda>0$

  • 均值:$$\begin{split}EX&={\frac {\lambda^\alpha}{\Gamma(\alpha)}}\int_0^{\infty} x^{\alpha}e^{-\lambda}dx\\&=\frac 1{\Gamma(\alpha)\lambda}\int_0^{\infty}(\lambda x)^{\alpha}e^{-\lambda x}d\lambda x\\&=\frac {\alpha}{\lambda}\end{split}$$
  • 方差:$$\begin{split}EX^2&={\frac {\lambda^\alpha}{\Gamma(\alpha)}}\int_0^{\infty} x^{\alpha+1}e^{-\lambda}dx\\&=\frac 1{\Gamma(\alpha)\lambda^2}\int_0^{\infty}(\lambda x)^{\alpha+1}e^{-\lambda x}d\lambda x\\&=\frac {\alpha(\alpha+1)}{\lambda^2}\end{split}$$

$$DX=EX^2-(EX)^2=\frac \alpha{\lambda^2}$$

卡方分布

  • 卡方分布:$X_i$是标准正态分布$$\chi^2(n)=\sum_{i=1}^nX_i$$

  卡方分布是伽马分布的一个特殊情况。$$\chi^2(n)\sim Ga(\frac n2,\frac 12)$$

  • 均值与方差: $$E\chi^2=n$$$$D\chi^2=2n$$
  • 定理:设$x_1,x_2…x_n$是来自正态分布$N(\mu,\sigma^2)$的样本,样本均值和方差分别为:$$\bar x = \frac 1n\sum_{i=1}^n x_i$$$$s^2=\frac 1{n-1}\sum_{i=0}^n(x_i-\bar x)^2$$

则有:

  • $\bar x$与$s^2$相互独立。
  • $\bar x\sim N(\mu,\sigma^2)$
  • $\frac {(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)$

F分布

  • F分布:设$X_1\sim \chi(m),X_2\sim \chi(n)$,$X_1,X_2$相互独立,则称$$F=\frac {\chi^2(m)/m}{\chi^2(n)/n}$$为自由度是$m$和$n$的F分布。

t分布

  • t分布:随机变量$X_1$,$X_2$相互独立且$X_1\sim N(0,1),X_2\sim \chi^2(n)$,则称$$t(n)=\frac {X_1}{\sqrt{X_2/n}}$$服从于自由度为$n$的$t$分布
  • 推论1:设$x_1,x_2,x_3...x_n$独立同分布于$N(\mu,\sigma^2)$,$\bar x$与$s^2$分别是样本均值和样本方差,则$$t=\frac{\sqrt n (\bar x-\mu)}{s}\sim t(n-1)$$

证明:由题意,$$\bar x\sim N(\mu,\frac {\sigma^2}{n})$$则有$$\frac {\bar x -\mu}{\sigma/\sqrt n}\sim N(0,1)$$又有$$\frac {(n-1)s^2}{\sigma^2}\sim\chi^2(n-1)$$

够造t分布则原命题得证

  • 推论2:$X,Y$为相互独立的正态分布,且$\sigma_x=\sigma_y=\sigma$,$x_1,x_2...x_m$和$y_1,y_2..y_n$是两正态分布的一组样本。记$$s_w^2=\frac{(m-1)s_x^2+(n-1)s_y^2}{m+n-2}$$

则$$\frac {(\bar x-\bar y)-(\mu_x-\mu_y)}{s_w\sqrt{\frac 1m+\frac 1n}}\sim t(m+n-2)$$

证明:易知$$\bar x\sim N(\mu_x,\frac{\sigma^2}m)$$$$\bar y\sim N(\mu_y,\frac{\sigma^2}n)$$

则$$\bar x-\bar y \sim N[\mu_x-\mu_y,(\frac 1m+\frac 1n)\sigma^2]$$

构造标准正态分布:$$\frac{\bar x-\bar y-(\mu_x-\mu_y)}{\sqrt{(\frac 1m+\frac 1n)}\sigma}\sim N(0,1)$$

构造卡方分布:$$\frac {(m-1)s_x^2}{\sigma^2}+\frac{(n-1)s_y^2}{\sigma^2}\sim \chi^2(m+n-2)$$

代入t分布表达式可证原命题。

你可能感兴趣的:(统计)