如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)

在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为

  • a方支持率为45.3%;
  • b方支持率为30.2%;
  • c方支持率为8.5%;
  • ...

最后都会说明一下,此次电话调查的数量2300,置信度为95%﹐最大容许误差为±2.5%,这就是抽样调查的典型情景:一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。

抽样误差: 假如相同规模的抽样调查进行多次, 抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合正态分布的,例如下图: 横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线); 

最小抽样量的计算公式: 抽样量需要 > 30个才算足够多,可以用以下近似的误差/样本量估算公式;

n: 为样本量;
/fn_jvn /120dpi {/sigma}^2:总体方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,;
E: 为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍;
/fn_jvn /120dpi ^{z_{/alpha/2}}: 为可靠性系数,即置信度,置信度为95%时,/fn_jvn /120dpi ^{z_{/alpha/2}}=1.96,置信度为90%时,/fn_jvn /120dpi ^{z_{/alpha/2}}=1.645

为了体现相对差距: 假设抽样均值为y

相对抽样误差 h = E / y

C= σ / y

以下是基于抽样得分的抽样误差估算表格:

 

置信度 相对抽样误差(假设:C=0.4)
1% 2% 3% 4% 5%
95% 6147  1537  683  384  246 
90% 4330  1082  481  271  173 

如果是基于胜出率,支持率等: 分值为0/1状态分布,公式拟合为

π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬殊需要的样本量越少; 

 

置信度 相对抽样误差
1% 2% 3% 4% 5%
95% 9604 2401 1067 600 384
90% 6765 1691 752 423 270

大部分的电话抽样调查:取样量一般在2000-5000;

 

你可能感兴趣的:(日志分析,Analytics)