“广东省大湾区普通居民家庭对于粤港澳大湾区建设的态度、问题及建言”
研究分析的抽样调查设计方案
目 录
一、调查背景
二、调查对象的界定
三、初级单元抽样框的确定与划分
四、抽样框的分层
五、样本的抽取方法
六、样本量的确定
七、样本的抽取过程
1、样本量的分配
2、初级抽样单元的抽取
3、二级单元的抽取
4、最终单元的确定
八、误差控制
1、误差来源
2、误差控制
一、调查背景
粤港澳大湾区是中国开放程度最高、经济活动最强的区域之一,在国家发展大局中具有重要的战略地位。近年来,基于粤港澳大湾区的建设,基础设施、投资贸易、金融服务、科技教育、休闲旅游、生态环保、社会服务等领域合作成效显著,形成了多层次、全方位的合作格局。大湾区的发展与当地民众息息相关,有利于民众的生活水平得以提高、生活质量得以改善,在文化、就业、健康、社保、教育、旅游等方面带来诸多改善。
为了更加深入了解分析粤港澳大湾区建设对于当地民众的影响,准确全面地掌握广东省大湾区普通家庭对于大湾区建设的态度和建言,现以广东省(不含港澳)大湾区普通居民家庭为调查对象,设计相应抽样方案,开展入户抽样调查。
本研究抽样方案设计遵循概率抽样原则,同时为了提高结果的准确性、方案的科学性,首先,将抽样总体按照区域划分为九个子总体,形成九个抽样框;其次,基于方案的可行性,分别对抽样框进行分层,采用PPS抽样与等概率抽样相结合的多阶段抽样设计;最后,为了确保方案的经济性,在考虑抽样误差的同时,将把方案成本考虑在内,确定样本量并进行分配。
二、调查对象的界定
本次调查研究内容主要涉及广东省大湾区普通居民家庭对于粤港澳大湾区建设的态度、问题及建言,通过调查分析研究,充分了解大湾区建设对于当地民众的影响。
现基于调查的一致性和科学性,先确定调查对象为广东省(不含港澳)大湾区普通居民家庭。
三、初级单元抽样框的确定与划分
将抽样总体划分为九个子总体,形成九个初级单元抽样框。
基于各个城市政治建设、经济建设、文化建设、社会建设、生态建设存在地域性差异,为保障抽样设计有效性,现将调查对象按区域进行划分,形成广州、深圳、珠海、佛山、惠州、东莞、中山、江门、肇庆九个抽样框。
四、抽样框的分层
根据广东省行政区域划分,将广州、深圳、珠海、佛山、惠州、东莞、中山、江门、肇庆九个市的街道和乡镇作为初级抽样单元构成调查总体,形成抽样框。
抽样样本的抽取分为三个阶段:
第一阶段:以市的各个区县所辖的街道、乡镇为一级抽样单位;
第二阶段:以居民委员会、村民委员会所辖范围为二级抽样单位;
第三阶段:以家庭住户为最终入户调查对象。
五、样本的抽取方法
第一阶段:针对各个区县的街道或乡镇,抽取样本单元时以人口规模作为辅助变量的系统PPS抽样;
第二阶段:居委会、村委会,抽取样本单元时以人口规模作为辅助变量的系统PPS抽样;
第三阶段:家庭户,抽取样本单元时根据编号等距抽取。
六、样本量的确定
样本量的确定在抽样调查中占据重要地位,若样本数量偏小,将会导致调查结果出现误差;若样本数量偏大,则会造成人力、物力、财力的浪费。
在本次调研过程中,样本量的确定以比例指标为主,确定样本量的公式如下:
其中,E为估计误差,为显著性水平,为总体比例。当=0.05,E=5%时,当时取得最大值,则计算得出样本量为843。依据样本量公式和不同置信区间Z统计量的值,分别计算,得出不同置信区间和抽样误差下的样本量表和折线图,如下:
表 1不同置信区间和样误差下的样本量表
图1 样本量折线图
由样本量表可知,基于费用的经济性、结果的科学性,从置信水平方面来看,当置信水平从97%上升至99%时,样本增量较高即抽样成本高;在抽样误差方面,在保障经济性的同时,尽可能降低抽样误差;因此,本次调查样本量选择1308个。由于采用多阶段的复杂抽样,设计效应一般都在2和2.5之间,本次调查抽样把设计效应定为2,则需要的样本量为2616个。考虑到在调研过程中,响应率、出现率与完成率,最终确定样本量为2650个。
七、样本的抽取过程
1、样本量的分配
在抽样总体中,按照广东省九个市的人口比例,分配样本量。根据广东省各市统计局官方网站数据,确定2018年年末各市人口规模,各市的样本量为:
其中为第个城市的样本量,为第个城市的人口数量,则广东省九个市的样本分配如下表:
表 2 样本量分配情况
2、初级抽样单元的抽取
在街道层内将九个市的街道(乡镇)现按照所属市的顺序排列,同一市内按照街道(乡镇)所属区县邮编排列,同一区县内按照街道乡镇的自然顺序排列,在街道层和乡镇层内按照人口规模成比例的PPS方法抽取。
PPS抽取过程。首先,分别对广东省九个市按照各区县人口进行排列,计算人口所占比例;然后,将他们的人口累计起来,根据累计比例依次写出每一元素所对应的选择号码范围;最后,采用随机数表的方法选择号码,号码所对应的元素选入第一阶段样本。
表 3 各市街道乡镇数量
数据来源:广东省统计局官网
针对九个市,分别进行街道或者乡镇的抽取,其主要分为三个步骤:第一,确定该市城镇户口和农村户口的比例,设为,确定抽取该市的街道数和乡镇数的比例为为;第二,当初级单元抽取总数为时,根据各市人口规模可计算各市初级抽样单元个数;第三,分别计算各市在城镇户口和农村户口的初级抽样单元个数。抽取100个初级单元时,各市抽取数量如下表:
表 4 初级单元数量
同理,在二级单元的抽取过程与初级抽样单元类似。在初级单元的街道或乡镇确定后,将这些街道或者乡镇作为新的一级抽样框。首先,依据随机数表,对各个区县内的村委会或居委会进行编号;然后,采用与村委会或居委会人数规模成比例的PPS方法抽取。3、二级单元的抽取
4、最终单元的确定
在二级单元确定后,首先统计居委会或村委会辖区内的住户,并按照门牌号进行排列编号,在每个被抽中的居委会或村委会中,对家庭户的抽样采取等距抽样。
八、误差控制
1、误差来源
在市场调查过程中,由于各种因素影响,会导致调查误差的产生。抽样调查误差通常被分为两大类:抽样误差、非抽样误差。
抽样误差来源。由于抽样调查是抽取总体的一部分进行调查,部分观测与总体实际值之间存在偏差,当以样本特征估计总体特征时,会存在一定误差。抽样误差主要影响因素包括:总体内部差异程度,样本容量大小,抽样方法,抽样组织形式,估计总体参数的方法等等。
非抽样误差来源。非抽样误差是指抽样调查过程中由抽样以外的其他因素造成的误差,主要分为抽样框误差、无回答误差、计量误差。在调查过程当中,调查问题的定义、调查问卷与量表的设计、调查样本的抽取、数据的处理与分析等过程,都可能存在非抽样误差。
2、误差控制
抽样调查误差的控制,通常包括对抽样误差和非抽样误差的控制。
抽样误差控制,主要方式包括以下几个方面:
在调查费用范围之内,尽量增加样本量;
根据样本总体特征,选择合适的抽样方法,提升样本的代表性;
非抽样误差控制,主要方式包括以下几个方面:
准确定义调查目的、调查对象,避免总体定义误差;
探索处理问题的有效方式,建设有效的调查方案;
重视调查问卷设计国税,提升调查问卷设计质量;
做好问卷数据预处理,做严数据处理过程。