高级计量经济学 2:概率论与数理统计(上)

高级计量经济学 2:概率论与数理统计(上)

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分(包括代码和正文)做了修改。

仅供学习参考,请勿转载,侵删!

⚠️注意,本文有一定量的数学证明,为数学强迫症者准备,矩阵恐惧症患者慎入。


本文目录

  • 2 数学工具
    • 2.3 概率论与条件概率
      • 2.3.1 概率
      • 2.3.2 条件概率
      • 2.3.3 独立事件
      • 2.3.4 全概率公式
    • 2.4 分布与条件分布
      • 2.4.1 离散型分布
      • 2.4.2 连续型分布
      • 2.4.3 多维随机向量的概率分布
      • 2.4.4 边缘密度函数
      • 2.4.5 条件分布
    • 2.5 随机变量数字特征(标量)
      • 2.5.1 期望
      • 2.5.2 方差
      • 2.5.3 协方差与相关系数
      • 2.5.4 矩
      • 2.5.5 条件期望、条件方差
    • 2.6 随机变量数字特征(向量)*
      • 2.6.1 (向量)期望
      • 2.6.2 (向量方差)协方差矩阵
      • 2.6.3 期望和协方差矩阵的性质


2 数学工具

2.3 概率论与条件概率

2.3.1 概率

概率是大量重复实验下,事件发生的频率趋向于某个稳定值,这个值就是概率。记事件 发生的概率(probability)为:

2.3.2 条件概率

记事件出太阳为 ,则在出太阳的前提下,降雨的条件概率(conditional probability)为:

表示事件 和 同时发生,即 ,故 为“太阳雨”的概率。理解条件概率最关键的就是理解这个韦恩图:

高级计量经济学 2:概率论与数理统计(上)_第1张图片

事件 发生以后,总体就整个面积坍塌到只有 的面积,即分母缩小了

2.3.3 独立事件

如果条件概率等于无条件概率,即 ,即 是否发生不影响 ,则说 为相互独立的随机事件,此时:

即:

这也可以作为随机变量相互独立的定义

2.3.4 全概率公式

如果事件组 两两互不相容,但必有一件事情发生。则对任意的事件 ,一定有:

全概率事件把这个世界上的某个事件 分成 种可能性,再把事件 的条件概率按加权平均的方式汇总起来,成为无条件概率。也就是说, 发生的概率应该等于 所有可能发生的情况时 发生的概率(条件概率)的加权平均


2.4 分布与条件分布

2.4.1 离散型概率分布

假设随机变量 的可能取值为 , 其对应的概率为 ,即满足 ,就称 为离散型随机变量,其分布律可以表示为:

其中, 。常见的离散分布有两点分布(Bernoulli)、二项分布( Binomial)、泊松分布(Poisson)等。

2.4.2 连续型概率分布

如果连续型随机变量 可以取任意实数,其概率密度函数(Probability density function,pdf) 满足:

  • 落入区间 的概率为

也就是说,在一维情况下,概率就是概率密度函数下的面积:

高级计量经济学 2:概率论与数理统计(上)_第2张图片

同时可以定义累计分布函数(cumulative distribution function,pdf):

其中, 为积分变量。 度量的是从 到 为止,概率密度函数 曲线下的面积:

高级计量经济学 2:概率论与数理统计(上)_第3张图片

2.4.3 多维随机向量的概率分布

为研究变量的关系,常常同时考虑两个或多个随机变量,即随机向量(random vector)。二维连续型随机向量 的联合密度函数(joint pdf) 满足:

  • 落入平面某区域 的概率为

二维随机向量的联合密度的联合密度就像是一定草帽,落入平面某区域 的概率就是此草帽下在区域 上的体积:

高级计量经济学 2:概率论与数理统计(上)_第4张图片

维连续型随机向量 可由联合密度函数 来描述。

类似的,可以定义二维随机向量 的累积分布函数为:

2.4.4 边缘密度函数

从二维联合密度 ,可计算 的一维边缘密度函数(marginal pdf):

即给定 ,把所有 取值的可能性都加总起来(积分的本质就是加总),这样 就被积分掉了,而这个联合密度变成了只关于 的函数。

2.4.5 条件分布

条件分布函数(conditional distribution)的概念对于计量至关重要。

考虑在 条件下 的分布,记为 或 。对于连续分布,此条件相当于在草帽上 的位置垂直地切一刀所得的截面。

可以证明,条件密度函数为:

直观上,与全概率公式 十分类似。


2.5 随机变量的数字特征(标量)

如果我们要了解一个随机变量的分布情况,知道分布函数固然最好。但更多的时候我们并不需要知道完整的分布函数,因为某些分布函数其实只需要几个量甚至一个量就足矣描述了,比如正态分布,只需要知道 就可以确定一个分布了。这样的参数是我们感兴趣的,即所谓的数字特征

2.5.1 期望

定义1:对于分布律为 的离散型随机变量 ,其期望(expectation)为:

期望值的直观含义就是对 进行加权平均,而权重为概率 。

定义2:对于概率密度函数为 的连续型随机变量 ,其期望为:

经济学上积分一般都可以当成是简单的求和,上式本质上也是加权平均。 成为期望算子,满足线性性

2.5.2 方差

定义3:随机变量 的方差(variance)为:

方差衡量了随机变量的波动幅度。方差的平方根成为标准差(standard deviation),记为 。在计算方差时,常利用以下简便公式

证明
\begin{align} {\rm VAR}(X) &\equiv {\rm E}[X-{\rm E}(X)]^2\\ &= {\rm E}[X^2 - 2X{\rm E}(X) + {\rm E}(X)^2]\\ &={\rm E}(X^2) - {\rm E}[2X{\rm E}(X)] + {\rm E}[{\rm E}(X)^2] \end{align}
考虑到 是一个常数,使用线性性(见2.5.1):

证毕

可以看出,方差其实是期望的特例,是以自变量为 的期望,即偏离期望的期望。

2.5.3 协方差、相关系数

常常需要考虑两个变量之间的相关性,即一个随机变量会对另外一个随机变量的取值会造成影响。

定义4:随机变量 与 的协方差(covariance)为:

直观上:

  • 如果 偏离其期望 为正的时候, 的偏离也为正,那么
  • 如果 偏离其期望 为正的时候, 的偏离缺为负,那么

所以 一定程度上度量了 和 的关系。

计算协方差时,常用下面的简便公式:

证明
\begin{align} {\rm Cov}(X,Y) &\equiv {\rm E} [(X-{\rm E}(X)(Y-{\rm E}(Y)]\\ &={\rm E}[XY-X{\rm E}(Y)-{\rm E}(X)Y+{\rm E}(X){\rm E}(Y)]\\ &={\rm E}[XY] - {\rm E}[X{\rm E}(Y)] - {\rm E}[Y{\rm E}(X)] + {\rm E}[{\rm E}(X){\rm E}(Y)]\\ &={\rm E}(XY) - {\rm E}(X){\rm E}(Y) \end{align}
证毕

直观上,上面的公式与方差(2.5.2)公式非常类似。同时可以证明,协方差的运算满足线性性

证明
\begin{align} & {\rm Cov}(X,Y+Z) = {\rm E} [(X-{\rm E}(X)((Y+Z)-{\rm E}(Y+Z)]\\ &={\rm E} [ X(Y+Z) - X{\rm E}(Y+Z)] - {\rm E}(X)(Y+Z) + {\rm E}(X) {\rm E}(Y+Z)]\\ &={\rm E}(XY) + {\rm E}(XZ) - {\rm E}\{X{\rm E}(Y)- X{\rm E}(Z) - {\rm E}(X)Y -{\rm E}(X)Z + {\rm E}(X){\rm E}(Y)+ {\rm E}(X){\rm E}(Z)\}\\ &={\rm E}(XY) + {\rm E}(XZ) - {\rm E}(X){\rm E}(Y) - {\rm E}(X){\rm E}(Z)\\ &= {\rm Cov}(X,Y) + {\rm Cov}(X,Z) \end{align}
证毕

虽然协方差也可以衡量两个随机变量的相关性,但毕竟它受 的单位影响。比如 GDP 用”元“还是”十亿元“计量,会对 造成影响的。为了统一量纲,需要用一个东西给他标准化咯。

前面提到,计量经济学中的标准化一般使用方差进行,所以这里我们定义一个相关系数,为:

可以证明,相关系数一定介于 到 之间,即 。下面给出一个绝妙的证明:

证明

为了创造 和 、 ,我们构造一个函数:

展开这个2次方,有:

使用期望算子的线性性,并注意到 、 、 ,有:

考虑到 的统计意义是某个非负随机变量的的期望故 ,即二次函数的判别式 :

显然,

证毕

2.5.4 矩

如果以上提到的各定义中的积分不收敛(比如自由度为 的 分布,没有期望和方差),那么就需要找到一个更加一般的数字特征,即各阶(moment)

定义5: 一阶原点矩为 ,另外的 阶原点矩为

定义6: 二阶中心矩为 , 阶中心矩为

其中,有几个矩是比较重要的:

  • 一阶原点矩 实际上就是期望,表示随机变量的平均值
  • 二阶中心矩 实际上就是方差,表示随机变量的波动程度
  • 三阶中心矩 实际上表示的是密度函数的不对称性
  • 四阶中心矩 实际上便是的是密度函数在最高处有多“”、在尾部有多“

可以看出,三、四阶矩也对密度函数的特征有一定的描述作用。可是,三、四阶矩受随机变量 的量纲的影响。按照计量经济学的惯例,对于任何取决于单位的变量,标准化的手段是除以方差(对高维度随机变量,则是除以协方差矩阵),那么就有:

定义7:随机变量 的偏度(skewness)为

定义8:随机变量 的峰度(kurtosis)为

某个随机变量的峰度如果比较大,那么密度函数在两侧更“厚“(这就是所谓的胖尾(fat tail)),从而更加可能取尾部的极端值(outlier)

对于正态分布,峰度为3(计算出来的,不服可算),偏度为0(奇函数的三次方积分为0)。从而对任意一个随机变量 ,可以计算它与正态分布差多少,可以以此判断这个分布是否为正态分布:

定义9:随机变量 的超额峰度(excess kurtosis)为

刚一般地,对于随机变量 与任意函数 ,称随机变量函数 的期望 为(moment)

2.5.5 条件期望、条件方差

定义10条件期望(condition expectation)就是条件分布 的期望,即:

(上式的最后一个等号见2.4.5 条件分布)由于 已经被积分掉,所以 只是关于 的函数。

定义 11条件方差(condition variance)就是条件分布 的方差,即:

由于 已经被积分掉,所以 只是关于 的函数。


2.6 随机变量的数字特征(向量)

2.5节介绍了标量随机变量的数字特征。我们在计量上其实更多地是使用高维度的“数字”,比如:

在2.5节,随机变量 是 一个标量,比如某一年的数学成绩

实际计量中,比如要做回归时,我们往往需要用到很多年的信息:

那么这个 个随机变量 实际上构成了一个随机向量,记为

在以后, 是一个随机标量, 是随机向量, 是随机矩阵

所以,研究向量的数字特征也十分重要。所幸,向量只是标量的拓展,很多性质和公式都是有共性的。

2.6.1 向量的期望

定义1:设 为 维向量,代表 个观测值,则其期望

2.6.2 向量的方差:协方差矩阵

协方差矩阵就是标量中的方差的概念。

定义2:设 为 维向量,代表 个观测值,则其协方差矩阵(covariance matrix)为一个 的对称矩阵:
\begin{align} \operatorname{Var}(\pmb{X}) &\equiv \mathrm{E}\left[(\pmb{X}-\mathrm{E}(\pmb{X}))(\pmb{X}-\mathrm{E}(\pmb{X}))^{\prime}\right]\\ &=\mathrm{E}\left[\left(\begin{array}{c} X_{1}-\mathrm{E}\left(X_{1}\right) \\ \vdots \\ X_{n}-\mathrm{E}\left(X_{n}\right) \end{array}\right)\left(X_{1}-\mathrm{E}\left(X_{1}\right) \quad \cdots \quad X_{n}-\mathrm{E}\left(X_{n}\right)\right)\right]\\ &=E\left(\begin{array}{ccc} {\left[X_{1}-E\left(X_{1}\right)\right]^{2}} & \cdots & {\left[X_{1}-E\left(X_{1}\right)\right]\left[X_{n}-E\left(X_{n}\right)\right]} \\ \vdots & \ddots & \vdots\\ {\left[X_{1}-E\left(X_{1}\right)\right]\left[X_{n}-E\left(X_{n}\right)\right]} & \cdots & {\left[X_{n}-E\left(X_{n}\right)\right]^{2}} \end{array}\right)\\ &=\left(\begin{array}{ccc} \mathrm{Var}(X_1) & \cdots & \mathrm{Cov}(X_1,X_n) \\ \vdots & \ddots & \vdots \\ \mathrm{Cov}(X_n,X_1) & \cdots & \mathrm{Var}(X_n) \end{array}\right) \end{align}
之所以叫协方差矩阵,是因为这就是由协方差构成的矩阵。对角线上的方差其实是协方差的特例罢了

2.6.3 (向量)期望和协方差矩阵的性质*

假设 为 常数矩阵,那么有:

  • 性质1: :期望的线性性
  • 性质2: :一维公式的推广
  • 性质3: :夹心估计量(重要!)

这些性质是可以证明的,最简单的想法就是把他们直接展开写成标量的形式。

证明1
假设 为 常数矩阵, 为 随机向量,那么:
\begin{align} {\rm E}(\pmb{AX}) &\equiv {\rm E} \left\{ \left[ \begin{matrix} a_{11} &\cdots & a_{1n}\\ \vdots & \ddots & \vdots\\ a_{m1} &\cdots & a_{mn} \end{matrix} \right] \left[ \begin{matrix} X_1\\ \vdots\\ X_n \end{matrix} \right] \right\} \equiv {\rm E} \left\{ \left[ \begin{matrix} a_{11}X_1+\cdots+a_{1n}X_n \\ \vdots \\ a_{m1}X_1 + \cdots+a_{mn}X_n \end{matrix} \right] \right\} \end{align}
从而,根据定义1,有:
\begin{align} {\rm E} \left\{ \left[ \begin{matrix} a_{11}X_1+\cdots+a_{1n}X_n \\ \vdots \\ a_{m1}X_1 + \cdots+a_{mn}X_n \end{matrix} \right] \right\} &\equiv \left[ \begin{matrix} \mathrm E(a_{11}X_1+\cdots+a_{1n}X_n )\\ \vdots \\ \mathrm E(a_{m1}X_1 + \cdots+a_{mn}X_n) \end{matrix} \right] \end{align}
根据标量期望算子线性性,有:
\begin{align} \left[ \begin{matrix} \mathrm E(a_{11}X_1+\cdots+a_{1n}X_n )\\ \vdots \\ \mathrm E(a_{m1}X_1 + \cdots+a_{mn}X_n) \end{matrix} \right] &\equiv \left[ \begin{matrix} \mathrm a_{11}E[X_1]+\cdots+\mathrm a_{1n}E[X_n]\\ \vdots \\ \mathrm a_{m1}E[X_1] + \cdots+\mathrm a_{mn}E[X_n] \end{matrix} \right] \end{align}
将求和的系数部分剥离:
\begin{align} \left[ \begin{matrix} \mathrm a_{11}E[X_1]+\cdots+\mathrm a_{1n}E[X_n]\\ \vdots \\ \mathrm a_{m1}E[X_1] + \cdots+\mathrm a_{mn}E[X_n] \end{matrix} \right] = \left[ \begin{matrix} a_{11} &\cdots & a_{1n}\\ \vdots & \ddots & \vdots\\ a_{m1} &\cdots & a_{mn} \end{matrix} \right] \left[ \begin{matrix} {\rm E}[X_1]\\ \vdots\\ {\rm E}[X_{n}] \end{matrix} \right] \end{align}
于是再用一次定义1
\begin{align} \left[ \begin{matrix} a_{11} &\cdots & a_{1n}\\ \vdots & \ddots & \vdots\\ a_{m1} &\cdots & a_{mn} \end{matrix} \right] \left[ \begin{matrix} {\rm E}[X_1]\\ \vdots\\ {\rm E}[X_{n}] \end{matrix} \right]= \pmb A \mathrm E \left( \begin{matrix} X_1\\ \vdots\\ X_{n} \end{matrix} \right) = \pmb{A} \mathrm E(\pmb X) \end{align}
证毕

实际上,如果 可以是向量,那么 也可以是行数为 的任意矩阵,我证过,这不难,读者可以自己试一下。类似的,也应该有 ,我没有仔细证明它(主要是懒),但是通过它可以推出性质3。我的理解是, 既然是一个常数矩阵,那么在求期望算子作为一种针对随机变量的算子,应该对常数不起作用的。

证明2

前面知道:

而:
\begin{align} \mathrm E(\pmb{XX^\prime}) = \mathrm E \left\{ \left[ \begin{matrix} X_1 \\ \vdots \\ X_n \end{matrix} \right] \left[ \begin{matrix} X_1 & \cdots & X_n \end{matrix} \right] \right\} = \left[ \begin{matrix} \mathrm E(X_1X_1) & \cdots & \mathrm E(X_1X_n) \\ \vdots & \ddots & \vdots \\ \mathrm E(X_nX_1) & \cdots & \mathrm E(X_nX_n) \end{matrix} \right] \end{align}
且:
\mathrm E(\pmb X)[\mathrm E(\pmb X)]^\prime = \left[ \begin{matrix} \mathrm E(X_1)\\ \vdots\\ \mathrm E(X_n) \end{matrix} \right] \left[ \begin{matrix} \mathrm E(X_1)& \cdots& \mathrm E(X_n) \end{matrix} \right] = \left[ \begin{matrix} \mathrm E(X_1)\mathrm E(X_1) & \cdots & \mathrm E(X_1)\mathrm E(X_n) \\ \vdots & \ddots & \vdots \\ \mathrm E(X_n)\mathrm E(X_1) & \cdots & \mathrm E(X_n)\mathrm E(X_n) \end{matrix} \right]
显然,
\mathrm E(\pmb{XX^\prime}) -\mathrm E(\pmb X)[\mathrm E(\pmb X)]^\prime = \left[ \begin{array}{ccc} E(X_1^2)-\mathrm E(X_1)^2 & \cdots & E(X_1X_n) - \mathrm E(X_1)\mathrm E(X_n) \\ \vdots & \ddots & \vdots\\ E(X_nX_1) - \mathrm E(X_n)\mathrm E(X_1) & \cdots & E(X_n^2)-\mathrm E(X_n)^2 \end{array} \right]
根据 2.5.2 和 2.5.3 有:
\begin{align} \left[ \begin{array}{ccc} E(X_1^2) & \cdots & E(X_1X_n) - \mathrm E(X_1)\mathrm E(X_n) \\ \vdots & \ddots & \vdots\\ E(X_nX_1) - \mathrm E(X_n)\mathrm E(X_1) & \cdots & E(X_n^2) \end{array} \right] = \left[\begin{array}{ccc} \mathrm{Var}(X_1) & \cdots & \mathrm{Cov}(X_1,X_n) \\ \vdots & \ddots & \vdots \\ \mathrm{Cov}(X_n,X_1) & \cdots & \mathrm{Var}(X_n) \end{array}\right] \end{align}
也就是:

证毕

证明3

由于:

所以:
\begin{align} \mathrm{Var}\pmb{(AX)} &= {\mathrm E}\pmb{[AX(AX)^\prime]}-{\mathrm E}[\pmb {AX}][\mathrm E(\pmb {AX})]^\prime\\ &={\mathrm E}[\pmb{AXX^\prime A^\prime}]- \pmb A \mathrm E[\pmb X] [\pmb A \mathrm E (\pmb X)]^\prime\\ & = {\mathrm E}[\pmb{AXX^\prime A^\prime}]- \pmb A \mathrm E[\pmb X]E[\pmb X]^\prime \pmb A^\prime \end{align}
注意到 是常数矩阵,根据线性性,可以剥离,则有:
\begin{align} {\mathrm E}[\pmb{AXX^\prime A^\prime}]- \pmb A \mathrm E[\pmb X]E[\pmb X]^\prime \pmb A^\prime &=\pmb A ({\mathrm E}[\pmb{XX^\prime}])\pmb A^\prime -\pmb A(\mathrm E[\pmb X]E[\pmb X]^\prime) \pmb A^\prime\\ &= \pmb A \{{\mathrm E}[\pmb{XX^\prime}]- (\mathrm E[\pmb X]E[\pmb X]^\prime )\}\pmb A^\prime\\ &=\pmb A \mathrm {Var}(\pmb X) \pmb A^\prime \end{align}
证毕

你可能感兴趣的:(高级计量经济学 2:概率论与数理统计(上))