agpop数据文件介绍:美国政府每五年做一次有关农业的普查,收集50个州的所有农场的有关数据。数据文件中共有3041个美国县级农场或与县级农场相当的农场数据。共有4个区域(region/rnum),50个州(state/snum),以及3041个县(county/cnum)。
我们用到的变量有:
县(county/cnum), 州(state/snum), 区域(region/rnum),
1992年每个县的耕地面积(acres92), 1987年每个县的耕地面积(acres87),
1992年每个县拥有的农场个数(farms92)。
目标变量为1992年的耕地面积(acres92)。
抽样要求:以“farms92”为规模变量,采用PPS抽样(放回)抽取容量为300的样本。
# 1.抽样
data=read.csv("抽样技术数据文件.csv",header=T,sep=",");
n=300; #样本容量
N=length(data$acres92)#总数
pik=inclusionprobabilities(data$farms92,n);pik #定义每个单元的入样概率
运行结果:【复制粘贴到此处】
> pik=inclusionprobabilities(data$farms92,n);pik # 定义每个单元的入样概率
[1] 0.1461000085 0.0671185936 0.1367346233 0.1526557781 0.0393346177
[6] 0.2019801399 0.0769522481 0.2211791795 0.1039557753 0.0597823753
[11] 0.0265352580 0.0407394254 0.0839762869 0.0163894240 0.0600945548
......
结果解释:【对结果进行解释说明】
输出结果为每个数据的入样概率。
s=UPmultinomial(pik);s #调用PPS抽样函数
运行结果:【复制粘贴到此处】
> s=UPmultinomial(pik);s #调用PPS抽样函数
[1] 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 1 0 0 0 0 0 0 0 0
[37] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0
[73] 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0
[109] 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
......
结果解释:【对结果进行解释说明】
输出结果为利用PPS抽样抽取的样本,“1”代表抽中的样本,“0”代表未抽中的样本。
data.pps=data[s!=0,];data.pps #提取抽到的样本数据
运行结果:【复制粘贴到此处】
> data.pps=data[s!=0,];data.pps #提取抽到的样本数据
county cnum state snum acres92 acres87 acres82 farms92 farms87 farms82 largef92 largef87 largef82 smallf92 smallf87 smallf82 region rnum
6 ADAIR COUNTY 6 IA 12 401858 417178 419586 1294 1404 1508 52 42 31 101 102 95 NC 1
22 AIKEN COUNTY 22 IN 15 164025 173795 173605 963 1071 1165 18 15 15 55 55 67 NC 1
28 ALBANY COUNTY 28 PA 38 167863 184586 199590 1165 1355 1475 7 4 6 96 102 121 NE 2
......
结果解释:【对结果进行解释说明】
输出结果为所抽取到的样本数据的具体表述。
估计的目标变量为acres92的均值和总值,及其相应的标准误差
# 2. 估计
# 估计的目标变量为acres92的均值和总值,及其相应的标准误差
Z=pik[s!=0]/n; #计算每次抽样中每个样本单元被抽中的概率Zi,等于其包含概率除以样本容量n
Q=s[s!=0]; # 每个单元被抽中的次数
YHH=sum(data.pps$acres92/Z*Q)/n;YHH #目标变量“acres92”的总值估计
运行结果:【复制粘贴到此处】
> YHH=sum(data.pps$acres92/Z*Q)/n;YHH #目标变量“acres92”的总值估计
[1] 844942110
结果解释:【对结果进行解释说明】
目标变量“acres92”的总值估计值为844942110。
vars=(1/n)*(1/(n-1))*sum((data.pps$acres92/Z-YHH)^2*Q);
sqrt(vars);#目标变量“acres92”的总值估计的标准差估计
运行结果:【复制粘贴到此处】
> sqrt(vars);#目标变量“acres92”的总值估计的标准差估计
[1] 85799285
结果解释:【对结果进行解释说明】
目标变量“acres92”的总值估计的标准差估计值为85799285。
YHHm=(sum(data.pps$acres92/Z*Q)/n)/N; YHHm;#目标变量“acres92”的均值估计
运行结果:【复制粘贴到此处】
> YHHm=(sum(data.pps$acres92/Z*Q)/n)/N; YHHm;#目标变量“acres92”的均值估计
[1] 277850.1
结果解释:【对结果进行解释说明】
目标变量“acres92”的均值估计值为277850.1。
varm=((1/N)^2)*(1/n)*(1/(n-1))*sum((data.pps$acres92/Z-YHH)^2*Q);
sqrt(varm);#目标变量“acres92”均值估计的标准差估计
运行结果:【复制粘贴到此处】
> sqrt(varm);#目标变量“acres92”均值估计的标准差估计
[1] 28214.17
结果解释:【对结果进行解释说明】
目标变量“acres92”均值估计的标准差估计值为28214.17。