读书笔记系列(一)—变量相关意味着什么?

                                                                                                  ”相关不等于因果“

                                            —— 统计学名言



        做数据分析也好,做论文也罢,数据之间最常见的关系只有两种:相关和不相关。后者分析价值不大,前者是开启真理大门的钥匙。发现两个变量相关,我们然后怎么办?这是一个问题。


        分析数据的第一步是检验两个变量间的关系。如果两个变量有相关性,则背后有三种可能:

  (1)两个变量本身互相不会影响,是对称关系(symmetrical relationship)。

(2)两个变量互相影响,是互反关系(reciprocal relationship)。

(3)一个变量会影响另一个变量,是不对称关系(asymmetrical relationship)。

      对称关系:假设两个变量都不互相影响,例如语文学的好的人,数学可能也学的好。事实上,虽然两个变量实质上无决定关系,但在社会研究中也很重要。它又分为四种情况:

(1)两个变量是某种概念的两个指标。例如,一个人焦虑时既会手心出汗,也会心跳加快。这种情况下,无需分辨哪个先哪个后。(可进一步进行因素分析)

(2)两个变量受某个第三变量同时影响,即伪相关。这种情况,则意味着关系没有意义。(回归中需要进一步控制变量)

(3)两个现象归属于一个更大的系统,或者是一个更大系统的不同功能体现。例如人的心和肺必定同时存在,少哪个都不会出现另一个。再如,一个人可能爱去乡下酒吧和听歌剧,这可能意味着,这两个动作是一个群体的生活特征(life style),或者你发现有汉堡的地方也会有热狗等等。(可以进行聚类分析)

(4)仅仅是一种偶然的关系。

      互反关系:即两个变量互相影响,互相加强或削弱,存在互相反馈的机制。例如:投资和利润增长,投资带来利润,利润带来更多的投资,消费带来收入,收入带来更多的消费。

      不对称关系: X对Y有影响而不是反之。这类关系对因果分析至关重要,是研究的核心。因果关系只是科学研究的一部分,但不是全部。科学研究的最终目的是发现“law”,即给出一个公式,而不仅仅是一组经验关系。 满足因果关系必须有两个基本前提:满足时间先后逻辑,常量不影响变量。

(1)时间有先后:若发现黑人比白人更显疏远,则可以假设种族的出现必然在先。但有时也会出现无法分辨先后或同时发生,例如教育水平和收看电视之间的关系、种族和出生家庭背景的关系。

(2)常量不影响变量:种族、性别等变量是终生不变的,即使发现了他们与某些现象关联,这些变量显然不是引起某个现象的直接原因。有些变量在人一生中是变化不大的,但仍有可能与因变量产生反向作用的。比如,社会阶层与组织成员身份(阶层决定后者,但后者有时也会促进前者)

      非对称关系的类型有6种:

(1)“刺激-反应”型:此类是最直接的因果决定类型,例如下雨和小麦的价格,战争风险和士气等。这类关系可以是直接的,也可以有中介变量存在。但要说明这个关系,需要证明接受刺激的组和非刺激组是可比的。这类关系的难点在于,永远存在选择效应,即选择接受某种刺激的群体与其他人存在某些方面的异质性。

(2)“情境-反应”型:某种事物在某种情况下会有某种状态,比如糖会在水中溶解,水加热会蒸发等。社会科学中,形容某类人很开明,不是说他就具备开明的性质,而是在某种条件下,他们表现出开明。这种情境的产生,不是人能主动控制的。

(3)“性质-反应”型:此种类型是指,人或物本身具有的属性(相对稳定性),造成了某种后果。例如糖这种物质有性状、大小、颜色、重量等固有性质,但这些性质与糖会溶解是两类性质,因为后者只有在加水时候才会体现。对于人而言,肤色、种族、性别是常态化属性,而开明,仅仅是一种潜在的或趋向性的性质,仅在某种条件下展现出来。此类关系在社科研究中最多。

(4)“必要条件”型:某一现象的出现,是另一种现象出现的必要条件,但不充分。例如,我们可以发现,科技越发达的国家,越倾向拥有核武器。但这并不说明,科技发达导致国家会拥有核武器,科技发达仅是拥核的“必要条件”。同样,马克思认为劳动力的自由是发展资本主义的前提,但拥有众多自由劳动力并不必然会产生资本主义,例如古代中国。

(5)“性质-功能”型:某些关联可能预示着,某些变量是某种类型个体的固有性质。例如,发现单位的科层体系越庞大,单位越人浮于事。你不能断定科层体系庞大导致了人浮于事,很有可能是人浮于事本身就是科层体系的固有性质。即,因变量和自变量本就是一个事物的两种性质。

(6)“手段-目的”型:自变量是达到因变量的手段,例如发现行业越标准化,生产成本越低。事实上,标准化的目的就是为了降低生产成本。另外,如工作努力与成功的关系,自我形象提升与找对象成功率的关系等。

      现实中,体现出变量相关性的情况非常多,而确定相关性的“实质内容”才是进行下一步分析的前提。对于“对称关系”型,进一步的研究将主要放在对某个概念的不同维度的讨论上。对于“互反关系”则更多要探讨社会过程的动态性质。对于“不对称关系”,则要进一步探讨是不对称关系下的哪种类型,并在此基础上进行更进一步的分析。


如对该问题想进一步与作者交流:

可加微信:NIUBICHENG1991

发送邮件:[email protected]

你可能感兴趣的:(读书笔记系列(一)—变量相关意味着什么?)