“收集数据”是数据思维课的第二大部分,这部分的内容主要解决收集数据的6个方面,分别是:
1.类型:为什么要对数据区别对待?
2.测量:如何定量的把握一个事物?
3.抽样:怎么确保样本能推断总体?
4.问卷:为什么说含金量最高的是操作化?
5.实验:怎么定量的确定因果关系?
6.大数据:到底有什么不一样?
=========================================================================
1.类型:为什么要对数据区别对待?
(1)数据收集之后放在哪里?
变量:收集到的数据用变量储存起来;
变量说明:包含变量的名称、定义、测量方式、编码规则等,具体来说明这个变量代表什么信息。
数据、变量和表格(数据库存储数据的方式之一)三个概念的关系:数据的级别最低,是一个变量的具体值;变量是一组数据的集合,代表事物的一个维度信息;表格的级别最高,是各个变量,也就是事物各个维度信息的集合。
变量的本质是一个量,也就是说变量里面只能是数字,非数字可以通过编码形式呈现。
(2)数据是否有不同的类型?
数据有自己的类型,现实世界的数据千差万别,但其实它们都可以归为四类,分别是类别数据、次序数据、间隔数据和比例数据。类别数据,设定的类别既要完备,又要排他;
(3)了解数据类型的作用
第一:知道这四种数据是向下兼容的;向下兼容的本质是说,从类别数据、次序数据到间隔数据、比例数据,越往后,数据拥有的信息越多;而从比例数据变到间隔数据、次序数据,甚至类别数据,就是一个丢失信息的过程。这也给我们一个提示:收集数据的时候,尽量多收集比例数据,以后需要的话可以向下变换。
第二:明白数据的类型不同,数据处理的方法就不同;
第三:只有深刻理解数据类型的意义,才会充分地利用其中蕴含的信息;虽然说尽量多收集比例数据,但也不是说比例数据就比其他数据更好。每—种类型的数据都有它的用处,这里没有鄙视链。
2.测量:如何定量的把握一个事物?
测量的目标:得到一组指标;
测量是一个得到指标体系的过程;
测量该怎么做?怎么找到合适的指标?怎么确定测量的指标?维度
维度;很多事物,人的认识不一致,角度不一致,目的不一致,维度的选取也就不一致。
如何分解维度反映了你如何理解事物,确定了维度,也就确定了要测量的指标。
在划分维度、选择指标时,至少要遵循两个原则:边际效应最大化原则,可靠性原则(信度)
怎么保证测量的就是你想测量的?效度:评价测量的有效性
第一:考虑关联性;第二:考虑结构性;第三:考虑完备性;其实,之所以有这么多方法,就是因为没有什么办法可以确保测量的有效性。这正是我们这些真正的盲人面对的困境。
3.抽样:怎么确保样本能推断总体?
收集数据第一件事就是考虑一个问题——找谁收集数据? 抽样
怎么才能做到一个好的抽样呢?——样本要对总体有代表性!(样本的各种特征大体接近总体的体征)
只有概率样本才能确保全面反应总体情况,为了保证代表性,必须使用概率样本。概率样本的意思是说,每一个样本都要按照实现确定的概率规则选取。
样本的代表性,专指与研究目的相关的维度对总体有代表性,而不是对总体全面的代表性。
非概率抽样最大的问题就是,不能确保样本能代表总体的情况,所以使用非概率样本的结论时一定要慎重。
抽样调查的结果是一个有限制条件的范围,而不是一个单一的数值,不要把抽样结果直接用在总体上,真正的结果是一个带限制条件的范围,能想到了解这个限制条件,是具备好的数据思维的表现。
4.问卷:为什么说含金量最高的是操作化?
在收集数据这个场景下,问卷是最常见、最重要的工具之一。在真正的读心术出现以前,问卷的地位不会被挑战,即使现在进入了大数据时代,也不会。
问卷的核心是问,而不是卷。 问卷的核心是提问,而不是问题出现在哪种媒介和哪个场景中。
问卷的含金量在概念的操作化,问卷就是概念操作化的工具,问卷的含金量就在于概念操作化的水平,只有操作化才能打败操作化。
设计问卷时,问题必须让答题者准确理解,而且要注意提问方式。你得到什么取决于你怎么问。
如果调查对象内部差异特别大,又不能全部测量,那就用抽样,用样本推断总体﹔如果想了解人的内部状态,那就用问卷。
5.实验:怎么定量的确定因果关系?
以确立因果关系为目标的收集数据的方式——实验。
因变量的本质就是,对因果关系里那个结果的操作化。如果你选择的因变量与那个结果对应得特别好,做出的结论就让人信服,对应得不好,就难以让人信服。
实验法通过操纵自变量、控制无关变量、观测因变量这样的逻辑,既找到了因果性,也能知道原因的效果大小,确保得出因果性结论。
实验法特别适合范围有限、界定明确的概念和假设。因此,实验法最大的问题就在于结论的外推,一不小心就会把结论的适用范围错误地扩大。走出实验室做实验,让实验控制与真实的社会生活接近,会让实验的结论更可靠。
6.大数据:到底有什么不一样?
大数据带来了新的思维方式和不用方式,不仅冲击了传统的数据收集方式,也极大地拓展了我们的能力,我们必须与时俱进。
大数据拥有海量性、持续性和不反应性等优势,但使用时也有很多要避开的坑。
反应性是指,如果一个人知道有人在研究他或者有人在监督他,他就会做出改变。而用大数据,这个问题就基本不存在。
使用大数据时要避开的坑:
第一,大数据里的数据,绝大部分都不是为了我们的目的收集的,而是在例行的业务活动中自动产生的。因此,如果想利用这些数据,就必须理解这些数据是怎么产生的,搞清楚这些数据的精确含义。大数据系统中的行为很多都不是自动出现的,而是在系统设计的目标下出现的。
第二,不要低估数据清洗的重要性、难度和成本,数据清洗,特指再次利用大数据做数据准备的时候要做的工作。大数据在收集的时候会有各种污染,如果不清洗就处理,得出的结论就不可靠。
第三,使用大数据时,要理解大数据的代表性问题,放在历史长河里,不管大数据多大,它都只是一个样本。
善于把大数据和小数据相结合,才是我们利用数据的最高境界。做样本内比较或者分析个体的行为,大数据很擅长,但是把结论推及总体,大数据经常不能支持这个任务。