商务与经济统计——抽样分布与区间估计

1. 基础概念及其定义

1.1 简单随机样本(有限总体)

从容量为 的有限总体中抽取一个容量为n的样本,如果容量为 的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机样本。

1.2 随机样本(无限总体)

如果从一个无限总体中抽取一个容量为 的样本,使得下面的条件得到满足:

  1. 抽取的每个个体来自同一总体
  2. 每个个体的抽取是独立的
    则称该样本是一个随机样本

1.3 抽样分布

一个样本统计量所有可能值构成的概率分布

1.4 无偏性

点估计量的一个性质,此时点估计量的数学期望等于所估总体参数的值

1.5 中心极限定理

从总体中抽取容量为 的简单随机样本,当样本容量很大时,样本均值 的抽样分布近似服从正态概率分布。一般来说,当样本容量大于或者等于 时, 的抽样分布可用正态分布近似。

1.6 抽样方法

  • 分层随机抽样:先将总体分成若干层,然后在每层中进行简单随机抽样。依赖于层内个体的同质性。
  • 整群抽样:先将总体分成若干群,然后以群为单位进行简单随机抽样。依赖于每一群对整个总体的代表性。

1.7 区间估计

总体参数估计值的一个区间,确信该区间将参数值纳入其中。通常是在点估计上加减一个边际误差的值来计算区间估计。区间估计的目的在于,提供基于样本得出的点估计值与总体参数值的接近程度方面的信息。

2. 抽样分布

2.1 的抽样分布

样本均值 的所有可能值的概率分布。可用于提供样本均值 与总体均值 的接近程度的概率信息。

  • 数学期望

    其中, 为总体均值
  • 标准(误)差


    当 时,采用无限总体的计算公式。样本容量越大,样本均值落在总体均值附近某一特定范围内的概率也越大。
  • 抽样分布的形态
  • 当总体服从正态分布时,在任何样本容量下 的抽样分布都是正态分布
  • 当总体不服从正态分布时,根据中心极限定理来判定。

2.2 的抽样分布

样本比率 是总体比率 的点估计,样本比率的计算公式为

其中, 为样本中具有感兴趣特征的个体的数量, 代表样本容量。

的抽样分布是样本比率 的所有可能值的概率分布。它可以对样本比率与总体比率的差异程度提供概率信息。

  • 数学期望
  • 标准(误)差


    当 时,采用无限总体的计算公式。
  • 抽样分布的形态
  • 当 并且 时, 的抽样分布可以用正态分布近似。

2.3 的抽样分布

为样本秩相关系数,其计算公式为:

其中, 为样本中观测值的个数; 为对于第 个变量的第 观测值的秩; 为对于第 个变量的第 观测值的秩;。

的抽样分布

  • 均值:
  • 标准差:
  • 分布形式
    时,近似服从正态分布。

3. 总体均值的区间估计

一个点估计量 边际误差。其中,边际误差 = 标准误差乘以。

3.1 已知的情形


其中, 为置信系数, 表示标准正态概率分布上侧面积为 时的 值。

常用的置信水平下的 值:

置信水平
90% 0.1 1.28 0.05 1.645
95% 0.05 1.645 0.025 1.960
99% 0.01 2.33 0.005 2.576

应用中需要注意若总体服从正态分布,则 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般 已足够,若总体分布大致对称,则样本容量至少为 才能得到置信区间一个好的近似。)

3.2 未知的情形

3.2.1 分布

一类概率分布,当总体标准差 未知而用样本标准差 对其进行估计时,该分布用于建立总体均值的区间估计。随着自由度的增大, 分布与标准正态分布越来越相似。 分布用于计算总体均值的区间估计,其自由度为 ,其中 是样本容量。

3.2.1 总体均值的区间估计


其中, 为样本标准差, 为置信系数, 表示自由度为 的 的分布中,上侧面积为 时的 值。

应用中需要注意若总体服从正态分布,则 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般 已足够,若总体分布大致对称,则样本容量至少为 才能得到置信区间一个好的近似;若总体的分布是严重偏斜或者包含异常点时,需要样本容量 。)

3.3 样本容量的确定


其中, 为希望达到的边际误差。若总体标准差 是未知的,一般可以将 做为标准差 的粗略估计。

4. 总体比率的区间估计

3.4.1 区间估计


其中, 为置信系数, 表示标准正态概率分布上侧面积为 时的 值。

3.4.2 样本容量


其中, 表示 的计划值, 为希望达到的边际误差。

5. 两总体均值之差的区间估计

两总体均值之差的点估计量为

5.1 和 已知的情形

  • 的标准误差

  • 的区间估计

    其中, 为置信系数。

5.2 和 未知的情形

  • 的标准误差

  • 的区间估计

    其中, 为置信系数; 统计量的自由度采用如下计算公式

5.3 匹配样本

  • 区间估计

    其中, 为样本差值的均值, 为样本标准差, 分布的自由度为 。

6. 两总体比例之差的区间估计

两总体比例之差的点估计量为

  • 的标准误差

  • 的区间估计

    其中, 为置信系数;两总体比例未知时,用 来估计 。

7. 一个总体方差的统计推断

  • 从正态总体中任一抽取一个容量为 的简单随机样本,则

    的抽样分布服从自由度为 的 分布。

  • 一个总体方差的区间估计

    其中, 表示 分布右侧的面积或概率为 时对应的 值, 分布的自由度为, 为样本容量。

8. 两个总体方差的统计推断

  • 从两个方差相等的正态总体中分别抽取容量为 和 的两个独立的简单随机样本,则 的抽样分布服从分子自由度为 和分布自由度为 的 分布。 为取自总体 的容量为 的随机样本的样本方差, 为取自总体 的容量为 的随机样本的样本方差。

你可能感兴趣的:(商务与经济统计——抽样分布与区间估计)