分类变量分析中的参数p置信区间估计需要注意的点

1.此类问题一般看做二项分布的随机变量

2.对于p的点估计一般做极大似然估计值即样本的频率p_hat

3.WALD统计量:对于p的区间估计当样本量很大时可以将X看做正态分布,由于样本均值的数学期望等于总体均值,方差等于sqrt(sigma^2/n),sigma^2 = p*(1-p)用样本频率p_hat代替母体参数p得到的区间估计当样本量较小时在p比较小的时候(实验过n=100时置信区间的宽度和n=10的时候的宽度)。n=10的时候,当样本的p_hat很接近0或者1时会产生较大误差。

4.SCORE统计量:这个时候可以选择计算SCORE统计量等于F(1-ALPHA/2),即p_hat - p / sqrt(p*(1-p)/n) = F(1-ALPHA/2),此方程为关于p的一元二次方程,通过解此方程得到p的置信区间

5.通过R语言的二项分布检验得到准确的置信区间

你可能感兴趣的:(分类变量分析中的参数p置信区间估计需要注意的点)