数据思维：收集数据

“收集数据”是数据思维课的第二大部分，这部分的内容主要解决收集数据的6个方面，分别是：

1.类型：为什么要对数据区别对待？

2.测量：如何定量的把握一个事物？

3.抽样：怎么确保样本能推断总体？

4.问卷：为什么说含金量最高的是操作化？

5.实验：怎么定量的确定因果关系？

6.大数据：到底有什么不一样？

=========================================================================

1.类型：为什么要对数据区别对待？

（1）数据收集之后放在哪里？

变量：收集到的数据用变量储存起来；

变量说明：包含变量的名称、定义、测量方式、编码规则等，具体来说明这个变量代表什么信息。

数据、变量和表格（数据库存储数据的方式之一）三个概念的关系：数据的级别最低，是一个变量的具体值；变量是一组数据的集合，代表事物的一个维度信息；表格的级别最高，是各个变量，也就是事物各个维度信息的集合。

变量的本质是一个量，也就是说变量里面只能是数字，非数字可以通过编码形式呈现。

（2）数据是否有不同的类型？

数据有自己的类型，现实世界的数据千差万别，但其实它们都可以归为四类，分别是类别数据、次序数据、间隔数据和比例数据。类别数据，设定的类别既要完备，又要排他；

（3）了解数据类型的作用

第一：知道这四种数据是向下兼容的；向下兼容的本质是说，从类别数据、次序数据到间隔数据、比例数据，越往后，数据拥有的信息越多；而从比例数据变到间隔数据、次序数据，甚至类别数据，就是一个丢失信息的过程。这也给我们一个提示：收集数据的时候，尽量多收集比例数据，以后需要的话可以向下变换。

第二：明白数据的类型不同，数据处理的方法就不同；

第三：只有深刻理解数据类型的意义，才会充分地利用其中蕴含的信息；虽然说尽量多收集比例数据，但也不是说比例数据就比其他数据更好。每—种类型的数据都有它的用处，这里没有鄙视链。

2.测量：如何定量的把握一个事物？

测量的目标：得到一组指标；

测量是一个得到指标体系的过程；

测量该怎么做？怎么找到合适的指标？怎么确定测量的指标？维度

维度；很多事物，人的认识不一致，角度不一致，目的不一致，维度的选取也就不一致。

如何分解维度反映了你如何理解事物，确定了维度，也就确定了要测量的指标。

在划分维度、选择指标时，至少要遵循两个原则：边际效应最大化原则，可靠性原则（信度）

怎么保证测量的就是你想测量的？效度：评价测量的有效性

第一：考虑关联性；第二：考虑结构性；第三：考虑完备性；其实，之所以有这么多方法，就是因为没有什么办法可以确保测量的有效性。这正是我们这些真正的盲人面对的困境。

3.抽样：怎么确保样本能推断总体？

收集数据第一件事就是考虑一个问题——找谁收集数据？抽样

怎么才能做到一个好的抽样呢？——样本要对总体有代表性！（样本的各种特征大体接近总体的体征）

只有概率样本才能确保全面反应总体情况，为了保证代表性，必须使用概率样本。概率样本的意思是说，每一个样本都要按照实现确定的概率规则选取。

样本的代表性，专指与研究目的相关的维度对总体有代表性，而不是对总体全面的代表性。

非概率抽样最大的问题就是，不能确保样本能代表总体的情况，所以使用非概率样本的结论时一定要慎重。

抽样调查的结果是一个有限制条件的范围，而不是一个单一的数值，不要把抽样结果直接用在总体上，真正的结果是一个带限制条件的范围，能想到了解这个限制条件，是具备好的数据思维的表现。

4.问卷：为什么说含金量最高的是操作化？

在收集数据这个场景下，问卷是最常见、最重要的工具之一。在真正的读心术出现以前，问卷的地位不会被挑战，即使现在进入了大数据时代，也不会。

问卷的核心是问，而不是卷。问卷的核心是提问，而不是问题出现在哪种媒介和哪个场景中。

问卷的含金量在概念的操作化，问卷就是概念操作化的工具，问卷的含金量就在于概念操作化的水平，只有操作化才能打败操作化。

设计问卷时，问题必须让答题者准确理解，而且要注意提问方式。你得到什么取决于你怎么问。

如果调查对象内部差异特别大，又不能全部测量，那就用抽样，用样本推断总体﹔如果想了解人的内部状态，那就用问卷。

5.实验：怎么定量的确定因果关系？

以确立因果关系为目标的收集数据的方式——实验。

因变量的本质就是，对因果关系里那个结果的操作化。如果你选择的因变量与那个结果对应得特别好，做出的结论就让人信服，对应得不好，就难以让人信服。

实验法通过操纵自变量、控制无关变量、观测因变量这样的逻辑，既找到了因果性，也能知道原因的效果大小，确保得出因果性结论。

实验法特别适合范围有限、界定明确的概念和假设。因此，实验法最大的问题就在于结论的外推，一不小心就会把结论的适用范围错误地扩大。走出实验室做实验，让实验控制与真实的社会生活接近，会让实验的结论更可靠。

6.大数据：到底有什么不一样？

大数据带来了新的思维方式和不用方式，不仅冲击了传统的数据收集方式，也极大地拓展了我们的能力，我们必须与时俱进。

大数据拥有海量性、持续性和不反应性等优势，但使用时也有很多要避开的坑。

反应性是指，如果一个人知道有人在研究他或者有人在监督他，他就会做出改变。而用大数据，这个问题就基本不存在。

使用大数据时要避开的坑：

第一，大数据里的数据，绝大部分都不是为了我们的目的收集的，而是在例行的业务活动中自动产生的。因此，如果想利用这些数据，就必须理解这些数据是怎么产生的，搞清楚这些数据的精确含义。大数据系统中的行为很多都不是自动出现的，而是在系统设计的目标下出现的。

第二，不要低估数据清洗的重要性、难度和成本，数据清洗，特指再次利用大数据做数据准备的时候要做的工作。大数据在收集的时候会有各种污染，如果不清洗就处理，得出的结论就不可靠。

第三，使用大数据时，要理解大数据的代表性问题，放在历史长河里，不管大数据多大，它都只是一个样本。

善于把大数据和小数据相结合，才是我们利用数据的最高境界。做样本内比较或者分析个体的行为，大数据很擅长，但是把结论推及总体，大数据经常不能支持这个任务。

收集数据

数据思维：收集数据

你可能感兴趣的:(数据思维：收集数据)