什么是内生性

一、内生性

大二上学期学宏观经济学的时候,第一次看到内生和外生这两个词就发懵,到底啥叫内生啥又是外生?后来老师讲解说,内生变量就是变量由模型内部决定的,外生变量就是不由模型来决定的。

这么一说还是挺懵,什么玩意是由模型内部决定的,什么玩意又是不由模型决定的?

要了解一个词的意思,首先回归它的英文本意是什么,内生做名词用为endogeneity,做形容词用为endogeneous。endo词根表示内部产生的。

这个词的兴起和社会科学的模型化是密不可分的。模型化的意思是,社会科学家们研究事物之间的关系时,往往会把一系列的概念转化为一个个可以操作的变量,然后用一个函数关系式来表示它们。

例如在经济学中,经济学家们认为在技术不变的情况下,经济产量是由劳动力以及资本决定的,于是使用了Y=Af(K,L)这样一个生产函数等式来表示生产的过程。在这个函数模型的理解下,左边的等式Y是内生的,它是由模型来决定的,右边的K和L是外生的,它们是被给定的,不能由这个模型来决定的。

同理,社会学家们认为个人的地位是由教育和进入劳动力市场的第一份职业获得的,那么就可以构造出一个地位获得模型:SES=f(edu+foccu)。在这个模型里面,左边的SES是内生的,它由模型决定,右边的教育和第一份职业是给定的,它不由模型决定,也叫做外生的。

这种思考问题的方式其实受到近代自然科学特别是物理学思维的影响很大。我们回到经典力学牛顿第二定律来看,牛顿第二定律告诉我们,物体加速度的大小跟作用力成正比,跟物体的质量成反比,且与物体质量的倒数成正比。用数学模型表示就是f=ma。这里面包含着两种重要的思维逻辑。一个是系统控制论的色彩,在自然系统里面这一定律是不变的,只要控制了质量和作用力,就能得到加速度。另外一个是对因果律的重视(对因果关系的探究也被视为现代科学的重要判断标准),力是加速度产生的原因。

推论到上面模型在社会科学中的应用,拿生产函数来举例,在这个模型系统里面,产量是由资本以及劳动力数量决定的,产量是资本和劳动力合力的结果。但同时,这个模型也蕴含着重要的假定,那就是其他影响产量的要素是不变的,并且产量本身并不会影响资本和劳动力。

但回到真实世界,我们发现现实肯定不是这么简单的。如果我们想要得到更多对于生产规律的认识,就务须引入更多的变量,以及构建更多的模型。在这种对自然科学模仿的思维下,上个世纪五六十年代,经济学家们引入几十上百的变量以及用多个模型(也就是联立方程模型)来解释宏观经济世界。例如,技术可能不是给定的,技术的进步可能是资本投资的副产品,那么就需要进一步设立一个关于A=f(K)的模型,那么可以得到两个联立的方程组。

Y=Af(K,L);A=f(K)

在这个模型系统里面,Y和A都变成内生的了。也就是说变量是不是内生的,其实说得是,在研究者设立的模型系统里面,这个变量是不是这个模型系统里面要估计的结果,并且这个变量在这个模型系统里面并不会随着其他模型中变量的改变而改变。

二、内生性问题

所以,当说一个模型有内生性问题的时候,其实是说,在真实世界系统里,模型右边的变量X是不是也可能在左边。

随着上个世纪九十年代以来经济学发生了“可信度革命”,实证研究成为经济学研究中的主流,经济学家们更关心如何得到感兴趣的变量X对于解释变量Y准确的因果效应估计,而对于回归模型来说,阻碍这种效应估计的很大一个原因是存在感兴趣的自变量X和残差项之间存在相关关系。

对于原本的内生性问题,X和δ自相关只是它的一个特征。而今天讲的内生性问题已经与自变量和残差项自相关划等号了。

例如,我们提出了一个模型Y=X+Z+δ。如果说这个模型有内生性问题,包括几种可能。

(1)反向因果问题;X会由Y决定。例如Y是收入,Z是生孩子的数量,可能因为一个人赚得就比较多,所以他能养得起更多的孩子,就生了更多的孩子

(2)遗漏变量问题:存在一个变量A,既与X相关,又和Y相关。存在一个变量A受教育程度,受教育程度同时影响生育孩子数量和收入。

(3)测量误差问题:也就说X的观测值并不符合真实,例如在jisheng时期,去做生育调查就会存在孩子少报的现象。

(4)选择问题:包括样本选择问题和自选择问题。

样本选择问题指的是,研究中使用的样本本身是非随机的。研究中使用的样本并不具有总体代表性,例如想要知道社会整体人群的状况,却只调查了男性,而没有调查女性。这其实反映的是一个抽样问题,被解释变量Y的样本平均值并不能代表总体的真值。

自选择问题指的是,解释变量的不随机。

此外一个典型的例子是上大学对收入的影响。这里面的自选择问题在于上大学这件事就不是随机的,想知道的效应是上大学这件事对每个人收入提高的平均效应是多少,但是上大学的人往往又是更有能力的人,而更有能力的人可能收入就更高,得到的系数估计会高估上大学的收入效应。

三、对样本选择偏差、自选择偏差和遗漏变量偏差的比较

样本选择偏差在于样本不随机,自选择偏差在于解释变量的不随机。前者的Y是不随机的,后者的X是不随机的。

自选择偏差可以被理解为遗漏变量偏差的一种,遗漏变量偏差中的遗漏变量是我们可以观测到的,而自选择偏差的第三者我们可能不太能关注到。

Heckman两阶段模型学习笔记 - 百度文库

“内生性” 到底是什么鬼? - 百度文库

赵鼎新.社会科学研究的困境:从与自然科学的区别谈起[J].社会学评论,2015,3(04):3-18.

你可能感兴趣的:(学习)