第三讲 原始数据收集(描述统计分析)

一,调查方式


A,随机抽样调查

概念:一种非全面调查。在全部被调查的总体中随机地抽选(样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中的机会)一部分单位进行观察,并根据样本数据来推断总体的数量特征。

注意:如果抽样调查不遵守随机原则选样,从样本推断总体特征的调查目的就不可能达到。因此,如何保证抽样的随机性是进行抽样调查的第一要务。

条件:以概率理论为基础的抽样推断,不仅可以估计出抽样推断误差的大小,而且可以通过一定方法控制这些误差。

随机抽样调查的适用范围:

1,无法进行全面调查的现象。例如:一些具有破坏性的产品质量检查。

2,由于工作量和工作难度太大,难于进行全面调查,而又必须取得总体数据的现象。例如:对我国每一户居民家庭收支情况的了解。

3,对普查资料做修正和补充。

优点:省时省力,降低成本,可靠有效(可以用科学方法控制误差)。

a,简单抽样(时点)

前提:事先就知道总体数量。

概念:最基本的抽样方式。按照总体原有的状况依次编号后,不加任何限制地抽取样本。如抽签、摸球、摇色子、excel的随机函数=int(rand()*x+1),x表示总体个数。

抽样误差:样本单位差异越小,抽出的样本代表性就越高,抽样误差也就越低。

缺点:当总体很大或无限大时,编号工作量很大,甚至是不可能的。

b,等距抽样(时点、时段)

办法1前提:事先能把握总体数量。

办法2前提:事先就知道总体状况。

首先将总体单位进行排序。

办法1:按照与抽样调查内容无关的标志排序,如调查人口的收入时,按姓氏笔画排序。

办法2:按照与抽样调查内容有关的标志排序。如调查人口的收入时,按收入多少排序。

抽样误差:排序标志与调查内容的关系越密切,顺序越一致,抽样误差就越小。

忌用:当总体的排序呈现出某种周期性时,特别是周期性节奏与抽样间隔一致时,会引起系统性误差,从而影响样本的代表性。

依次编号后,抽取第一个样本单位。

办法1:在规定的间隔之内,用简单抽样的办法抽取第一个样本单位。(间隔内的样本单位差异越小,抽出的样本代表性就越高,抽样误差也就越低)

办法2:在规定的间隔之内,抽取处于正中间位置上的样本单位(代表第一段的中间水平,最具代表性,从而可以得到较有代表性的样本)。

再从第一个样本单位开始按规定的间隔抽取其他样本单位。

优点:比简单随机抽样更简便,更节省费用,选取的样本代表性也越高。

c,类型抽样(时点、时段)

办法1前提:事前能把握总体数量。

办法2前提:事先就知道各群组占总体的比例,以及各群组内的状况。

选择分组标志:

每一个分组标志都代表着调查目的在某一方面的反应情况,只有选择最恰当的分组标志才能使分组的结果正确反应现象的本质。

复合分组:按两个或两个以上的标志层叠分组。优点是有利于分析得全面深入具体,缺点是组数太多不仅增大工作量而且容易冲淡主要的调查目的,因此要先按主要标志分组,再辅以次要标志。

确定分组组别:

把总体在同一个标志下按特征的不同分为各个组(前提:知道特征的范围,有的可以参考国家的统计分组体系),组之间要具有互斥性(任何一个总体单位都只能适合一个群组)、完备性(任何一个总体单位都在某一个组中)、相似性(组之间具有可比性)。如:农产品调查时,按地形分为山地、丘陵、平原,人口调查时,按年龄分为1~18(少年)、19~30(青年)、31~50(中年)、51~100(老年)。

抽样误差:抽样选择的分组标志与调查目的关系越密切,定性定量越细,每组内的差别就越小,从中选取样本单位就越具有代表性,抽样误差就越小。

确定各组中应抽取的样本数目:

方法1:根据各种组内部变异程度大小,变异程度越大,抽取样本单位数目越多,变异程度越小,抽取样本单位数目越少。(时段)

方法2:按该组单位数目占总体单位数目的比例大小抽取同样比例的样本单位数目,即类型比例抽样;(时点)

将组单位进行排序。

办法1:按照与抽样调查目的无关的标志排序,如调查人口的收入时,按姓氏笔画排序。

办法2:按照与抽样调查目的有关的标志排序。如调查人口的收入时,按收入多少排序。

抽样误差:排序标志与调查目的的关系越密切,顺序越一致,抽样误差就越小。

各组内依次编号后,抽取第一个样本单位。

办法1:在规定的间隔之内,用简单抽样的办法抽取第一个样本单位。(间隔内的样本单位差异越小,抽出的样本代表性就越高,抽样误差也就越低)

办法2:在规定的间隔之内,抽取处于正中间位置上的样本单位(代表第一段的中间水平,最具代表性,从而可以得到较有代表性的样本)。

再从第一个样本单位开始按规定的间隔抽取其他样本单位。

优点:由于从每一类中都要抽选样本单位,就又保证样本中各个类型都包括到了,因此类型抽样会使样本的代表性大大提高。

d,整群抽样(时点)

前提:事先就知道总体数量。

概念:先将总体分为许多属性特征相同的群组,依次编号后,从中随机的抽取若干群组作为样本。

抽样误差:群组之间属性的相似度越高,总体单位分布越均匀,样本的代表性就越高,抽样误差就越小。

优点:当总体数目很多,各单位在时空上分布又很分散时,用此方法可以节省人力物力,降低成本。

缺点:抽出的样本往往不够均匀,代表性比较低。慎用。


B,非随机抽样调查

概念:一种非全面调查。不按照概率均等的原则,而是根据人的主观判断或其他条件来抽取样本。

随机抽样调查的适用范围:

1,有些情况下,严格的随机抽样几乎无法进行,如调查对象的总体边界不清楚而无法制作抽样框。

2,有些研究为了符合研究的目的,不得不按照需要从总体中抽取少数有代表性的个体作为样本。

3,随机抽样的操作过程要求严格,实施起来比较麻烦,费时费力,因此如果调查的目的仅是对问题的初步探索,获得研究的线索和提出假设,而不是由样本推论总体,就不一定需要采用随机抽样。

优点:非随机抽样操作时省时省力,如果研究者对调查总体和调查对象有较好的了解,也可获得较准确的结果。

缺点:因为是主观决策,所以不能保证样本是否重现了总体的分布结构,样本代表性较小,误差很大且无法估计,用这样的样本推论总体极不可靠。

ba,典型调查

在被调查的总体中,有意挑选出个别或少数具有代表性的单位进行调查。

挑选典型的方法:分类选点。

bb,重点调查

在被调查的总体中,选出一部分重点单位进行调查,重点单位虽然只是总体中的一小部分,但它们在所调查的数量标志方面占有很大比重

优点:省时省力,降低成本,而且样本代表性高,从而推断总体比较可靠。

bc,就近抽样

以自己方便的形式在总体中抽取偶然遇到的单位作为样本。

bd,目标式和判断式抽样

根据主观判断选取代表性高的单位作为样本。

抽样误差:研究者对总体越了解,抽样误差越小。

be,滚雪球抽样

当我们无法了解总体情况时,可以先从总体中的少数单位开始收集样本,通过转介绍或其他方式找到越来越多的样本单位。

优点:研究少数群体时适用。

bf,配额抽样

前提:事先就知道总体数量,及各群组占总体的比例。

确定样本的数量,根据总体中各类别数量所占的比例确定样本中各类别数量所占的比例(用样本模拟出一个总体),最后按比例进行取样。


C,定期统计报表

概念:自上而下地布置统一的报表,然后自下而上的逐级上报汇总报表资料的调查方式。

优点:1资料的全面性和连续性;2资料的统一性和及时性;3资料的来源和准确性比较可靠。

缺点:1资料受利益影响会参杂虚假数据;2报表过多会增加基层的负担,甚至会引起混乱。

报告周期越短,内容越简明,报送时间越紧;

报告周期越长,内容越详尽,报送时间越宽松。


D,普查

概念:专门组织的一次性全面调查。

调查的内容可以是一定时点下的现象(如人口状况、固定资产的存量等),也可以是一定时期的过程性现象(如一年的生产量、销售量)。

调查的目的主要是收集一些不能够或不适合定期统计报表的数据资料,以搞清重要的公司总体情况和某些重要的经济现象的全面情况。

优点:资料最全面、最系统、最详尽。

缺点:花费较多人力、物力、财力和时间(调查登记的时间虽不长,但复杂细微的准备工作和数量巨大的数据处理工作却需要很长时间),容易产生登记误差。



二,调查方案


调查目的:

搞清楚调查要解决什么问题,有了目的才知道应该收集什么样的资料。

调查对象:

被调查的或被推断的总体。总体中的个体叫调查单位(全部或部分)。

报告单位:

负责提交调查资料的单位。

调查内容:

1内容应当是满足调查目的所必需的,可有可无或者备而不用的内容不必列入。

2内容应当只包括能得到确切答案的标志。

3内容的提法要确切具体,不可模棱两可,使填报人能有一致的理解。

问卷调查法:(略)

调查表:

1,表头:包括调查表名称(中间),报告单位的名称、地址、隶属关系(左上角),表号、制表单位、批准备案文号(右上角)。

2,表体:调查表的主体,表现为表格形式,调查内容列于表格内。

3,表脚:包括调查人员或填报人员的姓名、签章,及单位负责人的姓名、签章。

调查表的形式包括一览表、单一表和特殊表。

1,在研究样本的时候用一览表。

2,在调查样本单位的时候用单一表。

3,对于不同的调查标志,就需要用到特殊表。

调查时间:

调查资料所属的时间,分为时段和时点。

调查方式

调查期限:

提交调查报告的时间,目的是为了及时取得资料。

调查地点:

如果样本单位处于流动状态或分布在不同位置,就应该明确地作出规定和注明。

调查的组织实施计划:

包括确定调查活动的组织机构、人员培训安排、文件准备、经费预算、调查方式方法、资料报送方法、是否要进行试差等问题。

调查数据的录入:

任何捏造、改动数据的做法都是有悖于统计学精神和思想的严重错误行为,对于错误的信息在录入时要坚决舍弃。



三,原始数据(一手数据):


概念:通过直接来源得到的数据。如,观察、试验、问卷调查等。



四,次级数据(二手数据)的收集:


概念:通过间接来源得到的数据。

如:各类出版物,已发表的汇编资料,网上资料等。

引用时需要注明来源出处,一是尊重别人的劳动成果,二是证实其可靠性。

你可能感兴趣的:(第三讲 原始数据收集(描述统计分析))