泥壶映雪

内生性问题—工具变量法

文章目录

@[toc]

1 什么是内生性

2 内生性的来源

2.1遗漏变量偏差

2.2 联立方程偏差

2.3 解释变量测量误差

2.4 选择偏差

2.5 双向因果关系

2.6 模型设定偏误

2.7 动态面板偏差

3 工具变量

3.1工具变量的思想

3.2 两阶段最小二乘法

3.3 Wald估计量

4 矩估计

5 二阶段最小二乘法

5.1 阶条件

5.2 球形扰动假定条件下的 2SLS

6 关于工具变量的检验

6.1 内生性检验

6.2 过度识别(冗余)检验

6.3 弱工具变量检验

6.31 弱工具变量的识别方法

6.32 弱工具变量的处理方法

7 如何寻找工具变量

1 什么是内生性

经典线性回归模型
$\boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon \tag{1}$
一个假设是所有解释变量与任意时期的扰动项均不相关(严格外生性假定），即
$E(\boldsymbol \varepsilon|\boldsymbol X) = 0 \tag{2}$
这意味着
$E(\boldsymbol\varepsilon) =0；Cov(x_{ik},\varepsilon_{j}) =0，\forall j,k$
其中第一个条件可由(2)通过迭代期望定律证明，第二个条件由协方差定义证明。在大样本OLS估计中，也必须满足解释变量为预定(前定)解释变量，即
$Cov(x_{ik} ,\varepsilon_i) =0$
在大样本中只要所有解释变量与扰动项同期不相关，其他大样本OLS假定不变条件下，通过OLS+稳健标准误就能得到一致估计量。但事实上，模型中解释变量与扰动项一般都存在相关性，这种相关性会导致估计量的不一致，产生内生性问题。此时称与扰动项相关的解释变量薇内生解释变量。具有内生性的解释变量不是随机的，而是受到系统中其他因素的影响。在理论上，多元线性回归模型OLS估计量
$\hat{\boldsymbol \beta} = ({\boldsymbol X}^{\prime} \boldsymbol X)^{-1} {\boldsymbol X }^{\prime}\boldsymbol y$
将(1)式带入上式
$\hat{\boldsymbol \beta} =({\boldsymbol X}^{\prime} \boldsymbol X)^{-1} {\boldsymbol X }^{\prime}\boldsymbol ( \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon ) = \boldsymbol \beta+ ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon$
两边取期望得
$\hat{\boldsymbol \beta} = \boldsymbol \beta+ ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon$
即
$\hat{\boldsymbol \beta} - \boldsymbol \beta = ({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol\varepsilon$
两边求条件期望得
$E(\hat{\boldsymbol \beta} - \boldsymbol \beta |\boldsymbol X)= \boldsymbol X({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}\boldsymbol E(\boldsymbol\varepsilon|\boldsymbol X) = \boldsymbol A E(\boldsymbol\varepsilon|\boldsymbol X)$
其中 $\boldsymbol A = \boldsymbol X({\boldsymbol X}^{\prime}\boldsymbol X)^{-1}{\boldsymbol X }^{\prime}$ 。当严格外生性条件(2)不成立时，即便样本容量 $\to \infty$ ，也不能消除内生性问题带来的偏差。

2 内生性的来源

按照内生性来源，主要划分为以下七类：

2.1遗漏变量偏差

如果对研究对象的影响因素考虑不全面，或者对影响因素信息的不可观测，这可能导致回归模型遗漏了重要的解释变量。假如真实的回归模型为
$y_i = a + bx_1 + cx_2 +\varepsilon$
假定 $Cov(x_1,\varepsilon) =0,Cov(x_2,\varepsilon) =0$ 。由于变量 $x_2$ 不可观测，实际的回归模型变为
$y_i = a + bx_1 + u$
其中 $cx_2+\varepsilon$ 。考虑
$Cov(x_1 ,u) = Cov(x_1 ,cx_2+\varepsilon) = c*Cov（x_1,x_2)+Cov(x_1,\varepsilon) = c*Cov（x_1,x_2)$

当 $x_1$ 与 $x_2$ 不相关时， $Cov（x_1,x_2) =0$ ，从而 $Cov(x_1 ,u) =0$ ，此时实际模不存在内生性问题，由于扰动项的信息量增加，这将会增加扰动项的方差。
当 $x_1$ 与 $x_2$ 相关时， $Cov（x_1,x_2) \ne 0$ ，从而 $Cov(x_1 ,u) \ne 0$ ，此时实际模型存在内生性问题。

2.2 联立方程偏差

联立方程偏差也称内生变量偏差，其最为经典的例子是供求均衡模型：
$\begin{aligned} \left\{ \begin{array}{lll} q_t^s =\alpha_0 + \alpha_1p_t +u_t \\ q_t^d=\beta_0 + \beta_1p_t +v_t \\ q_t^s = q_t^d \end{array} \right. \end{aligned}$
解得
$\begin{aligned} \left\{ \begin{array}{lll} p_t = p_t(u_t,v_t)=\frac{\beta_0 -\alpha_0}{\alpha_1 - \beta_1} +\frac{v_t-u_t}{\alpha_1 - \beta_1} \\ \\ q_t = q_t(u_t,v_t) = \frac{\alpha_1\beta_0 - \alpha_0\beta_1}{\alpha_1 - \beta_1}+ \frac{\alpha_1v_t - \beta_1u_t}{\alpha_1 - \beta_1} \end{array} \right. \end{aligned}$

显然 $Cov(p_t ,u_t) \ne 0$ , $Cov(q_t ,v_t) \ne 0$ ，因此估计量 $\hat \alpha_1$ 与 $\hat \beta_1$ 的估计量不是一致的。

2.3 解释变量测量误差

设真实回归模型为
$bx^{*}+\varepsilon \tag{3}$
其中 $Cov(x,\varepsilon) =0$ .由于客观或主观原因导致对解释变量 $x^{*}$ 的测量存在误差，使得实际观测的解释变量
$x^{*} + e \tag{4}$
其中 $e = x - x^{*}$ 表示绝对误差。技术条件 $Cov(x^{*},e) = 0$ , $Cov(e,\varepsilon) =0$ 。将(4)带入(3)得
$b(x-e)+\varepsilon = a+bx+(\varepsilon -be)$
由于
$\begin{aligned} Cov(x,\varepsilon -be) &= Cov(x,\varepsilon)-bCov(x,e) \\ &=Cov( x^{*} + e ,\varepsilon)-bCov(x^{*} + e ,e) \\ &=Cov(x^{*},e)+Cov(x^{*},\varepsilon) -bCov(x^{*},e)-bCov(e,e) \\ &=0+0+0-bVar(e) = -b\sigma_e^2 \ne 0 \end{aligned}$
因此如果解释变量存在测量误差，解释变量存在内生性，导致回归存在结果存在偏差。如果被解释变量存在测量误差，总可以将绝对误差移向归并到扰动项中，从而扩大了扰动项的方差(如果解释变量不存在内生性)，回归系数的方差会增大。但不会导致内生性问题。

2.4 选择偏差

选择偏差包括自选择偏差(self-selectionbias)和样本选择偏差(sample-selection bias)。

自选择偏差是指解释变量不是随机的,而是选择的结果,而这个选择的过程会使对主效应的估计产生偏差(Shaver, 1998

Weigelt (2013)研究IT业务内包或是外包的不同情境下,供应商IT能力和公司运营能力交互效应对公司绩效的不同影响。其中对公司IT业务内包或是外包的选择就存在选择偏差，因为公司IT业务到底是内包还是外包其实是一种战略选择，因而它并不是外生的(随机的)。公司可以根据自身特质(更适合哪种战略)和针对不同战略选择(内包还是外包)对未来绩效的预测而有意识选择的。因此如果只考虑主效应的影响而忽视潜在的选择过程,对主效应的估计是有偏的，因为前后两个过程的误差项是相关的(Shaver, 1998)。

样本选择偏差(Heckman, 1979),是指样本选择不是随机的,从而使估计量产生偏差。样本选择偏差扣除人为因素,主要是由自选择偏差造成的。

Perkins (2014)研究了跨国公司制度经验与目标国家的相似性、广度和深度对跨国公司在目标国家经营成败的影响,该研究以进入巴西电信行业投资的外国跨国公司为样本,但跨国公司是否进入巴西投资可能不是随机的,而是有选择的,是根据自身情况是否适合进入巴西以及进入巴西后的绩效预测而决定的。只有当进入巴西后,因变量(经营成败)才可以被观测到。换句话说,没有进入巴西的那部分样本的因变量无法被观测到,而能够被观测到的只是适合进入巴西的那部分样本,从而造成样本选择偏差。

2.5 双向因果关系

双向因果关系是指解释变量与被解释变量互为因果。假设解释变量 $x_i$ 与被解释变量 $y_i$ 满足
$\varepsilon$
由于被解释变量与解释变量互为因果，因此下列方程也满足
$\lambda$
其中技术性条件满足 $Cov(\varepsilon,\lambda) =0$ 。由于
$\begin{aligned} Cov(x,\varepsilon) &= Cov(c +dy + \lambda,\varepsilon) \\ &= Cov(dy + \lambda,\varepsilon)\\ &=dCov(y,\varepsilon)+Cov(\lambda,\varepsilon)\\ &=dCov(y,\varepsilon) \ne0 \end{aligned}$
因此双向因果关系条件下也会产生内生性。

2.6 模型设定偏误

模型设定偏误是指构建的回归模型没有按照理论经验进行构建，或者根据已有的理论构建但因客观原因导致模型与实际情况存在模型结构上的系统性偏差。例如，消费函数中收入的增长快于消费的增长，因此消费与收入应该呈现非线性关系。但是实际中为了简化二者关系，常假定消费是收入的线性函数，从而导致模型存在内生性。例如，研究经济增长与收入分配的关系，构建了如下模型：
$b*gdp+\varepsilon$
但实际上，根据库兹涅茨效应(1955)发现，一国的收入分配(gap)与经济增长(gdp)呈现非线性关系，经济增长初期，效率优先，从而导致差距扩大；随着经济进一步增长，实施兼顾公平或公平优先策略，差距逐渐缩小。因此模型应该加入gdp的二次项以保证gdp对经济增长存在库兹涅茨效应。假设真实模型为
$gap = a + b*gdp+ c*(gdp)^2+e.(c<0)$
因此实际构建的模型的扰动项 $\varepsilon = e+c*(gdp)^2$ 。由于
$Cov(gdp,\varepsilon) = Cov(gdp,e+c*(gdp)^2) = c*Cov(gdp,(gdp)^2)\ne0$
从而产生内生性问题。此外，模型设定偏误也会导致球形扰动项不成立，即可能导致模型出现异方差与自相关问题。

2.7 动态面板偏差

动态面板偏差是指在动态面板模型中存在固有的内生性问题。设动态面板模型为
$y_{it} =\alpha y_{i,t-1}+\boldsymbol X\boldsymbol \beta +u_i+ \varepsilon_{it} \tag{5}$
将上述方程滞后一期得
$y_{i,t-1} =\alpha y_{i,t-2}+\boldsymbol X\boldsymbol \beta +u_i+ \varepsilon_{i,t-1} \tag{6}$
考虑
$Cov(y_{i,t-1}, u_i+\varepsilon_{it}) =Cov(y_{i,t-1},u_i)+Cov(y_{i,t-1}, \varepsilon_{it})$
在(6)中， $u_i$ 是 $y_{i,t-1}$ 的组成部分，故 $Cov(y_{i,t-1},u_i)\ne 0$ 因此动态面板模型(5)也存在系统性的内生性。

3 工具变量

解决模型的内生性问题主要包括如下几种：

通过自然实验(随机试验)
面板数据通过差分或离差消除个体效应
匹配法
工具变量法

本文主要介绍最后一种比较常用的方法。

3.1工具变量的思想

设模型
$bx+\mu$
存在内生性问题，即 $Cov(x,\mu)\ne 0$ 。如果将变量 $x$ 与扰动项 $\mu$ 视为两个集合，由于 $Cov(x,\mu)\ne 0$ ，在图形上可表示为

从图形上看，解释变量与扰动项之间存在交集，即 $\cap \mu = \Delta$ ，因此需要通过某种方法使解释变量分解为两部分：

第一部分是 $\hat x$ ，它满足 $\hat x \cap \mu =\emptyset$ ，也就是 $Cov(\hat x,\mu) =0$
第二部分是 $\Delta$ , 它满足 $\Delta \cap \mu \ne \emptyset$ , 即 $Cov(\Delta,\mu) \ne 0$

但问题是应该用什么手段对存在内生性的解释变量进行分解呢？现引入一个集合 $z$ ，使得

外生性条件： $Cov(z,\mu) = 0$
相关性条件： $Cov(z,x)\ne 0$

即实现上述目的。如果引入的变量 $z$ 与解释变量 $x$ 存在较强的相关关系，说明变量 $z$ 有助于预测或解释解释变量 $x$ ;而变量 $z$ 与扰动项无关，则意味着通过变量 $z$ 对变量 $x$ 的预测值 $\hat x$ 也与扰动项无关。称满足外生性条件与相关性条件的变量 $z$ 为工具变量(IV)。如果将预测值 $\hat x$ 作为解释变量以替代原有解释变量 $x$ ，那就能抑制内生性问题。外生性条件与内生性条件意味着存在如下的因果链：

相关性意味着工具变量 $z$ 对 $x$ 的造成直接的影响，而外生性意味着工具变量 $z$ 只能通过变量 $x$ 的作用对 $y$ 产生影响。前者为局部影响，后者为总影响(相对整个因果链)。设工具变量 $z$ 对 $x$ 的局部线性影响为 $\pi_1$ ,工具变量 $z$ 对 $y$ 的全局线性影响为 $\pi$ ,则解释变量 $x$ 对变量 $y$ 的影响为 $\pi_2 = \pi/\pi_1$

证：设工具变量 $z$ 对变量 $x$ 的回归模型为
$\pi_1 z + u \tag{7}$
设解释变量 $x$ 对 $y$ 的回归方程为
$\pi_2x + v \tag{8}$
将(7)带入(8)得
$\begin{aligned} y &= b + \pi_2(a + \pi_1 z + u) + v \\ &=(b+a\pi_2)+\pi_1 \pi_2z +(u\pi_2+v) \\ & =\alpha+\pi z +\varepsilon \end{aligned} \tag{9}$
不难看出，工具变量 $z$ 对被解释变量 $y$ 的间接影响为 $\pi =\pi_1 \pi_2$ ，即
$\pi = \frac{Cov(y,z)}{Var(z)}$
而由(7)得
$\pi_1 = \frac{Cov(x,z)}{Var(z)}$
因此在引入工具变量 $z$ 时，解释变量 $x$ 对 $y$ 的影响为
$\pi_2 = \frac{\pi}{\pi_1} = \frac{Cov(y,z)}{Cov(x,z)}$
由相关性条件可知， $\ne0$ ，故 $\pi_2$ 是可识别的。如果 $\approx0$ ，则 $\pi_2 \to \infty$ 不可识别，此时称工具变量 $z$ 为弱工具变量。

3.2 两阶段最小二乘法

为了解决内生性问题，在引入工具变量后利用两步回归可以解决内生性问题，具体步骤如下

先用内生解释变量对工具变量回归，即(7),此时得到 $x$ 的拟合值 $\hat x = a + \pi_1 z$
用被解释变量对拟合值 $\hat x = a + \pi_1 z$ 进行回归

证：由于
$\left\{ \begin{array}{ccc} y = b + \pi_2x + v\\ x = a + \pi_1 z + u \end{array} \right.$
而 $\pi_1 z + u = \hat x +u$ ，其中 $\hat x = a + \pi_1 z$ ， $Cov(\hat x,u) =0$ 。联立方程消除 $x$ 得
$\pi_2(\hat x +u) + v =b+\pi_2\hat x+( \pi_2u+v)$
此时考虑
$\begin{aligned} Cov(\hat x,\pi_2u+v)& = \pi_2Cov(\hat x,u)+Cov(\hat x,u) \\ &= \pi_2Cov(\hat x,u)+Cov(a + \pi_1 z,u)\\ &=0+0=0 \end{aligned}$
因此通过两阶段最小二乘法能够解决内生性问题。下面运用数据grilic举例。其中lw为被解释变量，iq为内生解释变量，med为工具变量。

use grilic.dta
qui reg lw med,noheader r  //使用被解释变量对工具变量回归
est sto m1
qui reg iq med ,noheader r //使用解释变量对工具变量回归
est sto m2
qui ivregress 2sls lw  (iq =med),noheader r  //2sls回归
est sto m3
esttab m1 m2 m3

                                                         /*结果
------------------------------------------------------------
                      (1)             (2)             (3)   
                       lw              iq              lw   
------------------------------------------------------------
med                0.0334***        1.306***                
                    (6.00)          (7.47)                   

iq                                                  0.0256***
                                                     (5.85)   

_cons               5.323***        89.61***        3.033***
                    (84.77)         (44.80)          (6.68)   
------------------------------------------------------------
N                     758             758             758   
------------------------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001
                                                          */

不难发现0.334/1.306 = 0.0256。

3.3 Wald估计量

设回归模型
$\pi_2 x + u$
其中 $Cov(x,u)\ne0$ ，故变量 $x$ 为内生解释变量。设虚拟变量 $z$ 与扰动项 $u$ 满足 $C o v (z, u) = 0$ ，则工具变量的估计量为
$\hat \pi_2 = \frac{\bar y_1 - \bar y_0}{\bar x_1 - \bar x_0}$
其中 $\bar y_1 = E(y|z=1),\bar y_0 = E(y|z=0),\bar x_1 = E(x|z=1),\bar x_0 = E(x|z=0)$ ，该估计也称Wald估计量。

证明：根据因果链条 $z\to x \to y$ 得到：
$\hat\pi_2 =\frac{\pi}{\pi_1}$
将(7)求条件期望得
$\pi_1 ;E(x|z=0) = a$
从而有
$\pi_1 = E(x|z=1) -E(x|z=0)$
再对(9)求条件期望得
$\alpha + \pi ;E(y|z=0) = \alpha$
从而有
$\pi = E(y|z=1) -E(y|z=0)$
于是
$\hat\pi_2 =\frac{\pi}{\pi_1} =\frac{E(y|z=1) -E(y|z=0)}{ E(x|z=1) -E(x|z=0)} = \frac{\bar y_1 - \bar y_0}{\bar x_1 - \bar x_0}$

4 矩估计

经典线性回归方程中要求
$Cov(\boldsymbol X,\boldsymbol \varepsilon) = E(\boldsymbol X\boldsymbol \varepsilon) -E(\boldsymbol X)E(\boldsymbol \varepsilon)=0$
扰动项期望 $E(\boldsymbol \varepsilon) =0$ ，故 $E(\boldsymbol X\boldsymbol \varepsilon) =0$ 。设多元线性回归方程为
$a_0 +\hat a_1x_1+\hat a_2x_2+\cdots+\hat a_kx_k+e$
因为 $E(\boldsymbol X\boldsymbol \varepsilon) =0$ ，故存在 $k$ 个矩方程使得
$\left\{\begin{array}{ccc} E(x_1e)=0\\ E(x_2e)=0\\ \vdots\\ E(x_ke)=0\\ \end{array}\right. \;\;\;\;\;\;\;\;\;\;\;\;\;\; (10)$
成立，另外 $E (u) = 0$ ，从而可以解出回归系数向量 $\boldsymbol a = [\hat a_0,\cdots\hat a_k]^{\prime}$ 。显然 $\boldsymbol a$ 的解是唯一的，因为存在 $k + 1$ 个未知数与 $k + 1$ 个方程(如果解释变量之间不存在完全相关性)。方程组(10)必须满足每一个解释变量与误差项正交，但现实中，可能出现某些解释变量与误差项存在相关性，即方程组的个数小于未知参数的个数，从而无法识别解释变量对被解释变量的影响。为简化关系，设二元线性回归模型
$y = a + b x + c w + u$
其中 $u$ 为扰动项， $Cov(x,u)\ne0,Cov(w,u) =0$ 。根据条件可得到如下矩方程组
$\left\{\begin{array}{lll} E(wu) = E(w(y-a-bx-cw))=0 \\ E(u)=E(y-a-bx-cw)=0 \end{array}\right.$
显然，两个方程不能得到唯一参数 $a, b, c$ 的值，原因在于第三个矩方程 $E(xu)\ne 0$ 。现引入工具变量 $z$ ，使得 $z$ 满足：

外生性： $C o v (z, u) = 0$
相关性： $\ne 0$

从而得到如下矩方程组
$\left\{\begin{array}{lll} E(wu) = E(w(y-a-bx-cw))=0 \\ E(zu)=E(z(y-a-bx-cw))=0 \\ E(u)=E(y-a-bx-cw)=0 \end{array}\right.$
从而解出参数 $a, b, c$ 的唯一值。下面是更正式的矩估计推导，设多元回归模型
$y_i = \beta_1x_{1i}+\cdots+ \beta_1x_{k-1，i} +\beta_1x_{ki}+\varepsilon_i$
其中只有解释变量 $x_{k}$ 为内生解释变量，即 $Cov(x_{ik},\varepsilon_i)\ne0$ ，其他解释变量均外生(因此可以把 $x_1,x_2\cdots x_{k-1}$ 自身作为自身的工具变量）。为了解决内生性问题，现引入工具变量 $w$ 使得

$Cov(x_{k},w) \ne 0$
$Cov(\varepsilon,w) =0$

记解释变量向量 $\boldsymbol x_i = (x_{i1},\cdots x_{i,k-1},x_{ik})'$ ,回归参数向量 $\boldsymbol \beta = (\beta_1 \cdots\beta_k)'$ ，故回归模型可记作
$y_i =x_i^{\prime} \boldsymbol \beta+\varepsilon_i$
记工具变量向量 $\boldsymbol z = (x_{i1},x_{i2},\cdots x_{i,k-1},w)^{\prime}$ ，并定义
$\boldsymbol g_i = \boldsymbol z_i \varepsilon_i$
从而得到 $E(\boldsymbol g_i ) =E(\boldsymbol z_i \varepsilon_i)= \boldsymbol z_iE( \varepsilon_i)=\boldsymbol 0$ 。于是
$\begin{aligned} E(\boldsymbol z_i \varepsilon_i)&= E(\boldsymbol z_i (y_i -x_i^{\prime} \boldsymbol \beta))=0 \\ &\Rightarrow E(\boldsymbol z_i y_i) =( E(\boldsymbol z_i \boldsymbol x_i^{\prime}))\boldsymbol \beta \\ &\Rightarrow \boldsymbol \beta = [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} E(\boldsymbol z_i y_i) \;\;\;\;\;\;\;(假定 [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1}存在) \end{aligned}$
用样本矩代替总体矩得
$\hat{\boldsymbol \beta}_{IV} =\left(\frac{1}{n} \sum_{i=1}^{n} \boldsymbol z_{i} \boldsymbol x_{i}^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \boldsymbol z_{i} y_{i}\right)=\left(\boldsymbol Z^{\prime} \boldsymbol X\right)^{-1} \boldsymbol Z y \;\;\;\;\;\;\;\;\;\;\;\;\;\; (11)$
其中 $\boldsymbol Z \equiv\left(z_{1} \cdots z_{n-1} z_{n}\right)^{\prime}$ 。

命题：如果秩条件 $rank(E(\boldsymbol z_i\boldsymbol x_i^{\prime}))=k$ ，则在一定的正则条件 $\hat{\boldsymbol \beta}_{IV}$ 是 $\boldsymbol \beta$ 得一致估计量。并且工具变量估计量 $\hat{\boldsymbol \beta}_{IV}$ 服从渐进正态分布，即
$\sqrt{n} (\hat{\boldsymbol \beta}_{IV}-{\boldsymbol \beta}) \xrightarrow{d}N(\boldsymbol 0,Avar ({\hat{\boldsymbol \beta}_{IV}}))$
其中 $({\hat{\boldsymbol \beta}_{IV}}) = [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1} \boldsymbol S [E(\boldsymbol z_i \boldsymbol x_i^{\prime})]^{-1}$ ， $\boldsymbol S = E(\varepsilon_i ^2 \boldsymbol z_i \boldsymbol z_i^{\prime})$ 。证明略

5 二阶段最小二乘法

5.1 阶条件

考虑模型
$y = a + bx_1 +cx_2+ dx_3+u$
其中 $a, b, c, d$ 为回归系数， $u$ 为扰动项。

当 $Cov(x_i,u)=0(i=1,2,3)$ 时，可得到四个矩方程

$\left\{\begin{array}{llll} E(x_1u)=0\\ E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$

即可解出 $a, b, c, d$ 的唯一解；

当 $Cov(x_1,u)\ne0$ ，此时只能得到关于 $a, b, c, d$ 的不定矩方程组，即

$\left\{\begin{array}{ccc} E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$

此时参数 $a, b, c, d$ 不可唯一识别。注：此时未引入工具变量，工具变量个数为L=0，内生解释变量个数为K= 1。显然

如果引入关于内生变量 $x_1$ 的工具变量 $z_1$ ，且满足
$Cov(z_1,u)=0;Cov(z_1,x_1)\ne0$
则依然可构建四个矩方程组
$\left\{\begin{array}{llll} E(z_1u)=0\\ E(x_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$
从而解出唯一参数 $a, b, c, d$ 的值。注：此时引入工具变量，工具变量个数为L=1,内生解释变量个数为K=1。显然 $L = K$

当 $Cov(x_1,u)\ne0$ 且 $Cov(x_2,u)\ne0$ ，此时内生解释变量为 $x_1,x_2$ ，于是对应的矩方程只有两个

$\left\{\begin{array}{ll} E(x_3u)=0\\ E(u)=0 \end{array}\right.$

显然，两个方程不能唯一解出方程组的四个参数。如果分别引入 $x_1,x_2$ 的工具变量 $z_1,z_2$ ，且满足
$Cov(z_1,u)=0;Cov(z_1,x_1)\ne0；Cov(z_2,u)=0;Cov(z_2,x_2)\ne0$
则依然可构建四个矩方程组
$\left\{\begin{array}{llll} E(z_1u)=0\\ E(z_2u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$
从而解出唯一参数 $a, b, c, d$ 的值。注：工具变量个数为L=2,内生解释变量个数为K=2。显然 $L = K$

当 $Cov(x_1,u)\ne0$ 且 $Cov(x_2,u)\ne0$ ，此时内生解释变量为 $x_1,x_2$ ，于是对应的矩方程只有两个

$\left\{\begin{array}{ll} E(x_3u)=0\\ E(u)=0 \end{array}\right.$

显然两个方程不能唯一解出方程组的四个参数。如果 $x_1$ 的工具变量为 $z_1$ ，但 $x_2$ 的工具变量有两个 $z_{21},z_{22}$ ，且满足
$\left\{\begin{array}{llll} Cov(z_1,u)=0;Cov(z_1,x_1)\ne0\\ Cov(z_{21},u)=0;Cov(z_{21},x_2)\ne0\\ Cov(z_{22},u)=0;Cov(z_{22},x_2)\ne0\\ \end{array}\right.$
对应的矩方程组为
$\left\{\begin{array}{llll} E(z_1u)=0\\ E(z_{21}u)=0\\ E(z_{22}u)=0\\ E(x_3u)=0\\ E(u)=0 \end{array}\right.$
此时共有5个矩方程，但未知参数只有四个，称这类情形为“过度识别”。注意此时工具变量个数L=3,内生解释比那辆个数为K= 2。显然 $L > K$ 。从以上三种情况可以归纳出阶条件：

A: 如果内生解释变量个数大于工具变量变量个数，则模型参数不可识别；
B: 如果内生解释变量个数等于工具变量变量个数，则模型参数恰好识别；
C: 如果内生解释变量个数小于工具变量变量个数，则模型参数过度识别；

因此，要让模型参数能识别出来，工具变量个数至少大于内生解释变量个数。

5.2 球形扰动假定条件下的 2SLS

通过以上的方法只能求出恰好识别的情形，并不适用于过度识别情形，因为(11)式的 $Z^{\prime} \boldsymbol X$ 不是方阵，故 $(Z^{\prime} \boldsymbol X)^{-1}$ 不存在。下面介绍过度识别的情况。

即使工具变量个数存在多个，但它依然满足工具变量的条件，即外生性与相关性。由此看来，如果将较多的工具变量通过某种线性组合(降维）也会回到恰好识别的情形。已经证明，在球形扰动项的条件下，由二阶段最小二乘法所提供的工具变量线性组合是所有线性组合中最渐进有效的。之所以要假定球形扰动项成立，是因为该方法没有考虑到模型可存在的异方差与自相关问题。下面介绍球形扰动假定条件下的2SLS具体步骤：

step1:分离出内生变量的外生部分。

将解释变量 $x_1,x_2,\cdots x_k$ 对所有 $L$ 个工具变量 $z_1,z_2,\cdots z_L$ 作OLS回归，得到 $k$ 个拟合值
$\hat x_1 = \boldsymbol Px_1,\hat x_2 = \boldsymbol Px_2,\cdots \hat x_k = \boldsymbol Px_k,$
其中 $\boldsymbol P = \boldsymbol Z(\boldsymbol Z' \boldsymbol Z)^{-1}\boldsymbol Z'$ 为投影矩阵，参见多元回归分析内容。定义
$\hat{\boldsymbol{X}} \equiv\left(\hat{\boldsymbol{x}}_{1} \hat{\boldsymbol{x}}_{2} \cdots \hat{\boldsymbol{x}}_{k}\right)=\boldsymbol{P}\left(\boldsymbol{x}_{1} \boldsymbol{x}_{2} \cdots \boldsymbol{x}_{k}\right)=\boldsymbol{P} \boldsymbol{X}=\boldsymbol{Z}\left[\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right] \;\;\;\;\;\;\;\;\;\;\;\;\;\; (12)$
step2:使用外生部分进行回归。

由于 $\hat{\boldsymbol{X}}$ 是工具变量 $z_1,z_2,\cdots z_L$ 的线性组合，故 $\hat{\boldsymbol{X}}$ 也包含了 $k$ 个工具变量。此时工具变量个数等于内生解释变量个数，即处于恰好识别情形。现将外生解释变量 $\hat{\boldsymbol{X}}$ 替换内生解释变量 ${\boldsymbol{X}}$
$\boldsymbol y = \boldsymbol \beta \boldsymbol X+\boldsymbol \varepsilon$
并进行OLS回归，得到工具变量估计量
$\hat{\boldsymbol \beta}_{\mathrm{IV}}=(\hat{\boldsymbol{X}} \boldsymbol{X})^{-1} \hat{\boldsymbol{X}}^{\prime} \boldsymbol{y}=(\hat{\boldsymbol{X}} \hat{\boldsymbol{X}})^{-1} \hat{\boldsymbol{X}}^{\prime} \boldsymbol{y} \;\;\;\;\;\;\;\;\;\;\;\;\;\; (13)$
这里 $\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}=(\boldsymbol{P X})^{\prime}(\boldsymbol{P X})=\boldsymbol{X}^{\prime} \boldsymbol{P}^{\prime} \boldsymbol{P} \boldsymbol{X}=\boldsymbol{X}^{\prime} \boldsymbol{P}^{\prime} \boldsymbol{X}=\hat{\boldsymbol{X}} \boldsymbol{X}$ ，且投影矩阵 $\boldsymbol P$ 为等幂矩阵，即 $\boldsymbol P' =\boldsymbol P;\boldsymbol P^{2}=\boldsymbol P$ 。将(12)带入(13)得
$\hat{\boldsymbol \beta}_{2 \mathrm{SLS}}=\left(\boldsymbol X^{\prime}\boldsymbol P \boldsymbol X\right)^{-1} \boldsymbol X^{\prime} \boldsymbol P\boldsymbol y=\left[\boldsymbol X^{\prime} \boldsymbol Z\left(\boldsymbol Z^{\prime} \boldsymbol Z\right)^{-1}\boldsymbol Z^{\prime} \boldsymbol X\right]^{-1}\boldsymbol X^{\prime}\boldsymbol Z\left(\boldsymbol Z^{\prime} \boldsymbol Z\right)^{-1} \boldsymbol Z^{\prime} \boldsymbol y$
在同方差假定下， $\hat{\boldsymbol \beta}_{\mathrm{IV}}$ 的协方差估计量为
$\operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{\mathrm{IV}}\right)=s^{2}\left(\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}\right)^{-1}$
其中 $s^{2} \equiv e^{\prime} e/(n-K)$ 。在异方差假定下，可使用稳健标准误
$\operatorname{Var}\left(\hat{\boldsymbol{\beta}}_{\mathrm{IV}}\right)=\left(\hat{\boldsymbol{X}}^{\prime} \hat{\boldsymbol{X}}\right)^{-1}\left(\sum_{i=1}^{n} e_{i}^{2} \hat{\boldsymbol{x}}_{i} \hat{\boldsymbol{x}}_{i}^{\prime}\right)(\hat{\boldsymbol{X}} \hat{\boldsymbol{X}})^{-1}$

6 关于工具变量的检验

首先应该判断该模是否存在内生性问题，若模型不存在内生性，就没有必要使用工具变量进行估计；若在没有内生性问题条件下使用了工具变量估计，根据两阶段最小二乘法原理，第一阶段回归的外生部分与原有的解释变量相比将损失部分信息，而这部分信息的损失降低回归结果的有效性。

其次，若存在内生性问题，应判断工具变量是否为过度识别情形。当工具变量个数等于内生解释变量个数时，即恰好识别情形，此时无法进行过度识别检验；当工具变量个数大于内生解释变量个数时，需要检验工具变量的有效性，即是否存在工具变量不具有外生性。

最后，如果运用了工具变量法估计，还需要对工具变量进行弱工具变量检验，即内生解释变量与工具变量之间的相关性是否较低。若存在弱工具变量，可以通过其他方法进行弥补。

6.1 内生性检验

方法一：当使用工具变量变量估计与使用OLS估计的回归系数相差不大，则意味着二者在大样本条件下， $\hat{\boldsymbol \beta}_{IV}$ 与 $\hat{\boldsymbol \beta}_{OLS}$ 都会收敛到真实的参数 $\boldsymbol \beta$ 。相反，若 $\hat{\boldsymbol \beta}_{IV}$ 与 $\hat{\boldsymbol \beta}_{OLS}$ 相差较大，则说明使用工具变量与不适用工具变量存在显著差异，表明模型存在内生性问题。Hausman检验的原假设为
$H_0:所有解释变量都是外生的\;\;\;or \;\;\; \hat{\boldsymbol \beta}_{IV} - \hat{\boldsymbol \beta}_{OLS} \to \boldsymbol 0$
如拒绝原假设，则模型存在内生性，

方法二：为简化关系设回归模型为
$y = a_0 + a_1x_1 + a_2x_2 +a_3x_3+u \;\;\;\;\;\;\;\;\;\;\;\;\;\; (14)$
其中 $x_1$ 为内生解释变量，其余变量外生。变量 $x_1$ 的工具变量有 $z_1,z_2$ 。因此可以先将内生解释变量分离出外生部分，即
$x_1 = b_0 + b_1z_1 + b_2z_2+b_3x_2 + b_4x_3+v = \hat x_1 +v$
由于 $Cov(x_1,u)\ne 0$ , $\hat x_1$ 是 $x_1$ 的外生部分，故 $Cov(v,u)\ne0$ 。因此要检验变量 $x_1$ 是否存在内生性，只要需要检验扰动项 $u$ 与 $v$ 是否存在相关性即可。假设二者的相关性满足
$\rho v+e$
带入(14)得
$a_0 + a_1x_1 + a_2x_2 +a_3x_3+\rho v+e$
此时只需检验回归系数 $\rho$ 是否为0，若是，则表明模型不存在内生性，反之存在。

6.2 过度识别(冗余)检验

过度识别检验的原假设为
$H_0:所有的工具变量与误差项不相关$
操作步骤为

step1:对方程做2SLS估计，得到残差项
step2:用残差对所有工具变量(包括模型中的外生解释变量)作回归，得到可决系数 $R^2$
step3:在原假设 $H_0$ 成立条件下
$nR^2 \sim \chi_q^2(n)$
其中 $n$ 表示多余的工具变量个数。当处于恰好识别时，此时 $n = 0$ ，而 $\chi_q^2(0)$ 无意义，因此恰好识别情形无法进行过度识别检验。

6.3 弱工具变量检验

考虑一元线性回归模型，通过OLS与IV估计，在大样本条件下，
$\left\{ \begin{array}{l} \operatorname{plim} \hat{\beta}_{1, o l s}=\beta_{1}+\operatorname{corr}(x, u) \frac{\sigma_{u}}{\sigma_{x}} \\ \\ \operatorname{plim} \hat{\beta}_{1, i v}=\beta_{1}+\frac{\operatorname{corr}(z, u)}{\operatorname{corr}(z, x)} \frac{\sigma_{u}}{\sigma_{x}} \end{array} \right.$

如果工具变量 $z$ 完全具有外生性，即 $C o r r (z, u) = 0$ ，此时工具变量估计量 $\hat{\beta}_{1, i v}$ 是一致的，不存在偏差；
如果工具变量 $z$ 不完全具有外生性，即 $\ne0$ ，并且内生解释变量与工具变量之间存在较弱的相关关系，那么Iv估计量的偏差可能要大于OLS估计量的偏差。

因此检验工具变量是否是弱工具变量至关重要，因为它直接影响到参数估计的一致性。

6.31 弱工具变量的识别方法

目前识别弱工具变量的方法主要有以下几种：

使用偏 $R^2$ 。具体操作步骤如下：
step1:用内生解释变量对外生解释变量进行OLS回归，其残差记作 $u$ 它表示不能由外生解释变量解释内生解释变量的信息；
step2:用工具变量变量对外生解释变量进行OLS回归，其残差记作 $v$ ,它表示不能由外生解释变量解释工具变量的信息；
step3:用残差 $u$ 对残差 $v$ 进行OLS回归，其可决系数记作 $R_p^2$ 。如果 $R_p^2$ 较大，则内生解释变量与工具变量存在较强的相关性。

事实上，计算出的 $R_p^2$ 究竟是多大才不构成弱工具变量目前尚无共识。

经验规则（Staiger and Stock, 1997）：第一阶段工具变量显著性检验的统计量应大于10：如果在多个内生解释变量情况下，将会存在多个第一阶段回归，对应多个F统计量。（Staiger and Stock, 2005）提出“最小特征统计值”，stata提供了最小特征统计值的临界值。通过特征值与临界值进行比较以判定弱工具变量问题。SY(Stock and Yogo )统计量为第一阶段中对工具变量显著性检验的统计量，但临界值不同于分布的临界值。临界值取决于内生变量的个数和工具变量的个数。
如果假设扰动项为iid，可使用“Cragg-Donald Wald F统计量”(Cragg and Donald, 1993)，其临界值由Stock and Yogo (2005 ）提供。
如果不作iid 扰动项的假设，则应使用“Kleibergen-Paap Wald rk F 统计量”，其临界值也来自Stock and Yogo (2005)。

6.32 弱工具变量的处理方法

减少工具变量的个数。工具变量越多，对第一阶段的统计量要求越高
寻找更强的工具变量
采用有限信息极大似然估计（LIML）。LIML对估计和推断偏差没有2SLS敏感。
使用冗余检验，剔除弱工具变量。

7 如何寻找工具变量

根据理论，列出所有与内生解释变量相关的变量的清单

从清单中剔除与扰动项相关的变量，工具变量具必须具有外生性

相关政策或制度、外生的冲击，比如自然灾害、意外事件等；
地理因很大程度上具有独立性；
历史变量也先于当前的经济指标生成。
最后一个常用的方法是将内生解释变量的时间(空间)滞后作为工具变量。

考虑模型
$y_t = a + b x_t +u_t$
由于 $x_t$ 存在内生性，故 $Cov(x_t,u_t) \ne 0$ 。 $x_{t-1}$ 先于 $u_t$ ，且 $Cov(x_t,x_{t-1})\ne0$ ，因此内生解释变量的滞后其可能是一个工具变量。

参考文献：

[1] 陈强《高级计量经济学及Stata应用》
[2] 王宇等(2017). 管理学研究中的内生性问题及修正方法[J].管理学季刊

-END-

你可能感兴趣的:(计量经济学,机器学习,数据分析,大数据,线性代数,概率论)

云服务器性能优化全攻略：CPU、内存、磁盘IO调优实战 Gloria歌洛莉亚 c语言数据库服务器 python 性能优化
在云计算时代，服务器性能直接影响应用响应速度、用户体验和运营成本。无论是高并发网站、实时数据分析还是机器学习训练，优化云服务器性能都是开发者必须掌握的核心技能。本攻略将从CPU调度、内存管理、磁盘IO三个维度，结合Linux系统特性和实际场景，提供可落地的优化方案。一、CPU性能调优：从调度策略到并行计算1.1CPU资源监控与瓶颈定位实时监控工具：top-c#动态查看进程CPU占用（按P键按CPU
喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
Apache Ignite 的并发控制：实现高性能事务处理的关键 AI天才研究院 AI实战 AI人工智能与大数据 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着大数据时代的到来，数据量的增长和计算能力的提升使得传统的数据库和计算模型已经无法满足业务需求。为了应对这些挑战，分布式计算和存储技术得到了广泛的研究和应用。ApacheIgnite是一款高性能的分布式数据库和计算平台，它可以提供实时性能和高可用性，同时支持事务处理和并发控制。在这篇文章中，我们将深入探讨ApacheIgnite的并发控制机制，以及如何实现高性能事务处理。我们将从以下
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
时序数据库在工业物联网领域的核心优势与应用价值时序数据说时序数据库物联网数据库 iotdb 大数据
一、工业物联网的数据挑战与需求工业物联网(IIoT)正在重塑全球制造业格局，通过连接设备、传感器和控制系统，实现了生产过程的数字化与智能化。然而，这一转型也带来了前所未有的数据管理挑战：海量数据：单个工厂可能部署数万个传感器，每秒产生数千万数据点高速写入：工业设备常需毫秒级数据采集，对数据库写入性能要求极高严格时效：质量控制、故障预测等场景要求实时数据分析长期存储：设备生命周期数据需保存数年甚至数
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在