概率 + 统计 样本及抽样分布(六)

总体和样本

在数理统计中,不是对所研究的对象全体 ( 称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断.

总体

对随机试验的某一数量指标进行试验或观察:

  1. 试验的全部可能的观察值称为总体
  2. 每一个可能观察值称为个体
  3. 总体中所包含的个体的个数称为总体的容量
  • 总体中的每一个个体是随机试验的一个观察值,因此它是某一随机变量X 的值
  • 一个总体对应一个随机变量X
  • 不再区分总体和相应的随机变量,统称为总体X
  • X 的分布函数和数字特征称为总体的分布函数和数字特征

样本

  • 总体分布一般是未知,或只知道是包含未知参数的分布。
  • 为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为 “抽样”。
  • 所抽取的部分个体称为样本。
  • 样本中所包含的个体数目称为样本容量。

对总体X在相同的条件下,进行n次重复、独立观察,其结果依次记为X_1,X_2,\cdots,X_n。这样得到的随机样本X_1,X_2,\cdots,X_n是来自总体X的一个简单随机样本,与总体随机变量具有相同的分布。n称为这个样本的容量。

一旦取定一组样本X_1,X_2,\cdots,X_n,得到n个具体的数值(x_1,x_2,\cdots,x_n),称为样本的一次观察值,简称样本值 。

最常用的一种抽样叫作“简单随机抽样”,其特点:

  1.  代表性: X_1,X_2,\cdots,X_n中每一个与所考察的总体有相同的分布.
  2.  独立性:X_1,X_2,\cdots,X_n是相互独立的随机变量.

总体、样本、样本值的关系

概率 + 统计 样本及抽样分布(六)_第1张图片

统计是从手中已有的资料--样本值,去推断总体的情况---总体分布F(x)的性质.

样本是联系二者的桥梁

总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.    

若总体的分布函数为F(x)、概率密度函数为f(x),则其简单随机样本的联合分布函数为F^*(x_1,x_2,\cdots,x_n) = F(x_1)F(x_2)\cdots F(x_n)

其简单随机样本的联合概率密度函数为f^*(x_1,x_2,\cdots,x_n) = f(x_1)f(x_2)\cdots f(x_n)

抽样分布

统计量与经验分布函数

统计量

由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.

 这种不含任何未知参数的样本的函数称为统计量.   它是完全由样本决定的量.

X_1,X_2,\cdots,X_n是来自总体X的一个样本,g(X_1,X_2,\cdots,X_n)X_1,X_2,\cdots,X_n的函数,若g中不含未知参数,则g(X_1,X_2,\cdots,X_n)是样本的一个统计量。

  • X_1,X_2,\cdots,X_n是样本,也是随机变量
  • 统计量是随机变量的函数,故也是随机变量
  • g(x_1,x_2,\cdots,x_n)是统计量g(X_1,X_2,\cdots,X_n)的观察值。

几个常见统计量

样本平均值:\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i(它反映了 总体均值 的信息)

样本方差:S^2 = \frac{1}{n - 1}\sum_{i=1}^n(X_i -\bar{X} )^2 = \frac{1}{n - 1}(\sum_{i=1}^nX_i^2 - n \bar{X}^2)(它反映了总体 方差的信息)

样本标准差 :S = \sqrt{\frac{1}{n - 1}\sum_{i=1}^n(X_i -\bar{X} )^2}

样本k阶原点矩:A_k=\frac{1}{n}\sum_{i=1}^nX_i^k \ \ k=1,2,\cdots(它反映了总体k 阶矩的信息)

样本k阶中心矩:B_k= \frac{1}{n }\sum_{i=1}^n(X_i -\bar{X} )^k \ \ k=1,2,\cdots(它反映了总体k 阶 中心矩的信息)

注意:A_1 = \bar{X}, B_2 = \frac{n-1}{n}S^2,S^2=A_2-A_1^2

统计量的观察值

\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i

s^2 = \frac{1}{n - 1}\sum_{i=1}^n(x_i -\bar{x} )^2

s = \sqrt{\frac{1}{n - 1}\sum_{i=1}^n(x_i -\bar{x} )^2}

a_k=\frac{1}{n}\sum_{i=1}^nx_i^k \ \ k=1,2,\cdots

b_k= \frac{1}{n }\sum_{i=1}^n(x_i -\bar{x} )^k\ \ k=1,2,\cdots

仍分别称为样本均值、样本方差、样本标准差、样本 k 阶(原点)矩以及样本 k 阶中心矩。

统计量的一些性质

设总体X的均值为\mu,方差为\sigma^2X_1,X_2,\cdots,X_n是来自总体X的一个样本,则

  1. E(\bar{X})=E(X)=\mu
  2. D(\bar{X})=\frac{D(X)}{n}=\sigma^2/n
  3. E(S^2)=D(X)=\sigma^2
  4. 若总体X的k阶矩E(X^k)=\mu_k存在,则A_k=\frac{1}{n}\sum_{i=1}^nX_i^k\overset{P}{\rightarrow} \mu_k\ \ k=1,2,\cdots(矩估计法的理论根据)

 经验分布函数

X_1,X_2,\cdots,X_n是来自总体F的一个样本,用s(x) |x| < \infty,表示x_1,x_2,\cdots,x_n中不大于x的随机变量的个数

定义:经验分布函数为F_n(x) = \frac{1}{n}s(x)\ \ -\infty < x < \infty

正态总体的三个常用抽样分布

  • 统计量的分布称为抽样分布
  • 总体分布已知时,抽样分布虽然是确定的,但一般来说难以求得
  • 正态总体的三个常用抽样分布:
    • \chi ^ 2分布
    • T分布
    • F分布

\chi ^ 2分布

\chi ^ 2分布是由正态分布派生出来的一种分布.

定义:设X_1,X_2,\cdots,X_n相互独立,  都服从正态分布N(0,1),则称随机变量:\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2所服从的分布为自由度为 n 的\chi ^ 2分布。记为\chi^2 \sim \chi^2(n)

概率 + 统计 样本及抽样分布(六)_第2张图片

\chi ^ 2分布的性质

  1. ​​​​​​​设X_1,X_2,\cdots,X_n相互独立,  都服从正态分布N(\mu,\sigma^2),则\chi ^ 2=\frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\mu)^2 \sim \chi^2(n)
  2. X_1 \sim \chi^2(n_1),X_2 \sim \chi^2(n_2),且X_1,X_2相互独立,则X_1 +X_2 \sim \chi^2(n_1 + n_2),这个性质叫\chi ^ 2分布的可加性.
  3. \chi^2 \sim \chi^2(n)\chi ^ 2分布的数学期望和方差 E(\chi^2) = n, D(\chi^2) = 2n

概率 + 统计 样本及抽样分布(六)_第3张图片

T分布

定义:设X \sim N(0,1),Y \sim \chi^2(n), 且X与Y相互独立,则称变量T=\frac{X}{\sqrt{Y/n}}所服从的分布为自由度为 n的 T分布,记为T \sim t(n)。T分布又称为学生氏分布,它的概率密度函数为:

概率 + 统计 样本及抽样分布(六)_第4张图片

T分布的性质

  1. T分布的密度函数关于t=0对称,当n充分大时,妻徒刑近似于标准正态分布概率密度函数的图形,再由\Gamma函数的性质有\lim_{n\rightarrow \infty}h(t) = \frac{1}{\sqrt{2\pi}}e^{-t^2/2},即当n足够大时,
  2. t_{1-\alpha}(n) = -t_{\alpha}(n)
  3. n > 45时,t_{\alpha}(n) \approx z_{\alpha}

F分布

U \sim \chi^2(n_1),V \sim \chi^2(n_2),U与V相互独立,则称随机变量F = \frac{U/n_1}{V/n_2}服从自由度为n1及 n2  的F分布,n1称为第一自由度,n2称为第二自由度,记作F \sim F(n_1,n_2)

概率 + 统计 样本及抽样分布(六)_第5张图片 

概率 + 统计 样本及抽样分布(六)_第6张图片

F分布的性质

  1. F \sim F(n_1,n_2),则\frac{1}{F} = \frac{V/n_2}{U/n_1} \sim F(n_2,n_1)
  2. F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2, n_1)}

正态总体的样本均值与样本方差的分布

定理 1  (样本均值的分布)

X_1,X_2,\cdots,X_n是来自正太总体N(\mu,\sigma^2)的样本,\bar{X}是样本均值,则有\bar{X} \sim N(\mu, \frac{\sigma^2}{n}),即\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)

n取不同值时样本均值\bar{X}的分布

定理 2  (样本方差的分布)

X_1,X_2,\cdots,X_n是来自正太总体N(\mu,\sigma^2)的样本,\bar{X}S^2分别是样本均值和样本方差,则有

  1. \frac{(n-1)S^2}{\sigma^2} \sim\chi^2(n-1)
  2. \bar{X}S^2独立

n取不同值时\frac{(n-1)S^2}{\sigma^2}的分布见右图

定理 3 (样本均值方差比的分布)

X_1,X_2,\cdots,X_n是来自正太总体N(\mu,\sigma^2)的样本,\bar{X}S^2分别是样本均值和样本方差,则有\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n - 1)

定理 4 (两总体样本均值差、样本方差比的分布)  

X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2),且X与Y独立,X_1,X_2,\cdots,X_n是来自X的样本,Y_1,Y_2,\cdots,Y_n是来自Y的样本,\bar{X}\bar{Y}分别是这两个样本的样本均值,S_1^2S_2^2分别是这两个样本的样本方差,则有

  1. \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)
  2. \sigma_1^2 = \sigma_2^2 = \sigma^2\frac{\bar{X}-\bar{Y}-(\mu_1 - \mu_2)} { \sqrt{\frac{(n_1 - 1)S_1^2+ (n_2 - 1)S_2^2}{n_1+n_2-2}} {\sqrt{\frac{1}{n_1} + \frac{1}{n_2} } }} \sim t(n_1 + n_2 -2)

 

 

你可能感兴趣的:(笔记,笔记)