arlionn

Stata-倍分法: 不满足平行趋势假设咋办？

作者：黄欣怡 (中山大学)
邮箱：[email protected]

「Source：Weights to address non-parallel trends in panel difference-in-differences models 」

Stata 连享会课程主页 || 直播视频 || 知乎推文

扫码查看连享会最新专题、公开课视频和 100 多个码云计量仓库链接。

连享会 - 文本分析与爬虫 - 专题视频
主讲嘉宾：司继春 || 游万海

文章目录

@[toc]

1. 引言

2. 模拟数据的生成

2.1 双重差分模型

2.2 模拟数据生成过程

3. DID 估计与 Stata 的实现

3.1 网格搜索 ( Grid Search )

3.2 迭代法 ( Iterative Approach )

4. WPT DD 的估计结果解读

参考文献

[连享会 - 文本分析与爬虫 - 专题视频](https://www.lianxh.cn/news/88426b2faeea8.html)

关于我们

1. 引言

双重差分法 ( Difference in differences，简称为 DID 或 DD ) 是用于估计处理效应的最为常见的计量方法，广泛应用于评估政策实施、项目执行及其他外生事件产生的效应。DID 法通过衡量处理组与控制组在被处理前后发生的变化，将处理组的变动减去控制组的变动，得到处理效应。由于在估计过程中采用了两次差分，故名为双重差分法。

采用 DID 法的重要前提假设为平行趋势假设，即假定处理组在未受到处理情况下的变化趋势与控制组相同。该假设在具体实证研究中转化为检验处理组与控制组在接受处理前 ( pre-treatment period ) 是否具有相同的变化趋势。关于平行趋势假设的检验在连享会之前的推文「多期 DID：平行趋势检验图示」和「Stata: 多期倍分法 (DID) 详解及其图示」中均有涉猎。

实证研究中，当个体接受处理的可能性或接受处理产生的效应与该个体随时间变动的因素相关时，可能不再满足平行趋势假设。在违背平行趋势假设的情况下，不能直接采用 DID 估计处理效应。部分研究采用了增加控制变量的方法，在回归中进一步控制了交互固定效应 ( interactive fixed effects ) 或随时间变化的混合因素 ( time-varing confounding factors ) 。

与此同时，部分学者通过改变样本的权重，使处理组与新构造的控制组在接受处理前具有相似的变化趋势。这类方法包括合成控制法 ( synthetic control method ) 、倾向得分匹配法 ( propensity score matching ) 、逆概率加权法 ( inverse probability weighting ) 等。

Ahlfeldt (2018) 指出，这类计量方法只适用于估计单一处理效应的情形；在需要区分多类相互关联的处理效应的研究情境中，或面对连续型 DID 的情形时，这些方法不再适用。Ahlfeldt (2018) 由此提出 Weighted Parallel Trends DD ( 以下简称 WPT DD ) 的估计方法。下文主要对 Ahlfeldt (2018) 提出的网格搜索算法 ( Grid Search ) 和迭代法 ( Iterative Approach ) 进行介绍。

2. 模拟数据的生成

2.1 双重差分模型

我们参照如下模型生成模拟数据：

$y_{it}=\sum_{n}\alpha_{n}P_{t}D_{i}^{n} + \mu_{i}+\varphi_{t}+\omega_{i}f(t)+\epsilon_{it} \quad (1)$

其中， $y_{it}$ 是个体 $i = 1, . . ., I$ 在时期 $t = 1, . . ., T$ 可观测到的结果变量， $D_{i}^{n} (n=1,...,N)$ 代表所考察的 N 个处理组虚拟变量， $P_{t}$ 为时间虚拟变量 ( 当 $t\geq z$ 时， $P_{t}=1$ ，否则取值为 0 ) 。 $\mu_{i}$ 和 $\varphi_{t}$ 分别为个体固定效应与时间固定效应。 $\omega_{i}$ 代表研究者难以观测的个体变化趋势， $f(t)=\Sigma_{0}\Gamma_{0}t^{0}$ 表示时间趋势，两者的交乘项 $\omega_{i} f(t)$ 则表示因个体而异的时间趋势。

在模型 (1) 中， $\alpha_{n} ( n=1,...,N )$ 是我们关注的 N 类处理效应。当 $\omega_{i}$ 与 $D_{i}^{n}$ 不具有相关性时，遗漏 $\omega_{i}$ 不会导致估计结果有偏；然而当 $\omega_{i}$ 与 $D_{i}^{n}$ 相关时，遗漏变量将导致估计结果出现偏差。我们假设 $\omega_{i}$ 与 $D_{i}^{n}$ 具有如下的相关性：

$\omega_{i}=\vartheta_{i}+\frac{1}{N} H_{i}\sum_{n}D_{i}^{n} \quad (2)$

其中， $H_{i}$ 是我们难以观测的变量， $\vartheta_{i}$ 是随机变量。此时，当我们在 DID 估计中遗漏 $\omega_{i} f(t)$ 时，我们估计所得的处理效应为：

$E\left(\frac{\partial y_{i, t>z}}{\partial D_{i}^{n}}-\frac{\partial y_{i, tE(∂Din∂yi,t>z−∂Din∂yi,t<z)=αn+N1E(Hi)(fˉt≥z−fˉt<z)(3)$

其中， $\bar{f}^{t\geq z}$ 和 $\bar{f}^{tfˉt<z$

遵循这一思路，Ahlfeldt (2018) 首先生成总体 $j = 1, . . ., J$ 。该总体满足 $E(H_{j}) = 0$ 。随后，依照抽样比率 $F_{j}=1/\sum_{m}r_{m}b_{j}^{m}$ 从总体中非随机地抽取样本 $i = 1, . . ., I$ 。我们假定 $F_{j}$ 与 $H_{j}$ 具有相关性，且 $H_{j}=-M/2+\sum_{m}b_{j}^{m}$ 。其中， $b_{j}^{m}$ 是不随时间变化的个体特征变量。令抽样权重 $S_{i}=F_{i}^{-1}$ 。则在后续研究中，我们试图根据可观测样本 $i = 1, . . ., I$ 寻找 $S_{i}$ ，以纠正非随机抽样产生的偏差，从而使 $E(H_{j})=0$ 。

下文将利用样本接受处理前 ( pre-treatment period ) 的数据对权重 $S_{i}$ 进行搜索。若能够正确识别 $S_{i}$ ，则可消除 $\Delta y_{j,pre}$ 与 $D_{i}^{n}$ 的相关关系。由于 $b_{j}^{m}$ 是不随时间变化的特征变量，则 $H_{j}$ 亦不随时间变化，因此识别得到的 $S_{i}$ 也能够消除 $\Delta y_{j,post}$ 与 $D_{i}^{n}$ 的相关关系。

2.2 模拟数据生成过程

我们采用 Ahlfeldt (2018) 提供的 [数据和程序] 进行模拟。模拟数据由 1000 个体 ×10 年构成 ( $I = 1000, T = 10$ )，是含有 10000 个观测值的平行面板数据。

在模拟数据生成过程中，我们设定 $\alpha_{n}=1$ ，引入连续型处理变量 T1、T2，令样本接受处理的时点为 t = 5 。我们考察 2 类处理效应 $D^{n=1}$ 和 $D^{n=2}$ ( N=2 ) ；设定 M = 3，即 $H_{j}$ 包含 3 个个体特征变量： $b^{m=1},b^{m=2},b^{m=3}$ 。我们仅就时间趋势服从一阶函数分布 ( $f (t) = t$ ) 的情形进行讨论。

* 导入模拟数据
cd "E:\Data\GA__PTW_REP"
u "DATA/INPUT/MCDATA.dta", replace

* 生成不随时间变化的个体特征变量，即 b1, b2, b3
qui gen h1 = runiform(0,1)
qui gen h2 = runiform(0,1)
qui gen h3 = runiform(0,1)

* 生成模型(2)中对应的变量 Hi
qui gen H =  (-1.5+h1+h2+h3)

* 生成两组 treatment variable (连续型 DID)
qui gen T1 = runiform(0,1)
qui gen T2 = runiform(0,1)

* 将 TREATMENT x H 加入至 TREND 变量中，从而生成模型 (2) 对应的个体变化趋势 OMEGA
qui replace TREND = TREND + (0.5 * T1 + 0.5 * T2) * H

* 生成抽样比率 Fi 与抽样权重 Si
* 生成 r1, r2, r3
gen RW = runiform(0,1)
* 生成抽样权重 Si
qui gen MODELW =  (RW[1]*h1+RW[2]*h2+(RW[3])*h3)
* 对抽样权重作标准化处理
qui sum MODELW
qui replace MODELW = MODELW /r(mean)
* 生成抽样权重的倒数：抽样比率 Fi
qui gen IVW = 1/MODELW

* 依据抽样比率 Fi 从总体 j = 1,...,J 中抽取样本 i = 1,...,I
qui gsample `obs' [w=IVW]

* 将数据由宽型数据转换为长型数据
        qui foreach num of numlist 1/10 {
        preserve
        keep ID LE YE Y`num' h*  TREND T1 T2 MODELW IVW
        gen PERIOD = `num'
        ren Y`num' Y
        gen panelID = _n
        save "TEMP/re_temp`num'.dta", replace
        restore
        }
        qui u "TEMP/re_temp1.dta", clear
        qui erase "TEMP/re_temp1.dta"
        qui foreach num of numlist 2/10 {
        append using "TEMP/re_temp`num'.dta"
        erase "TEMP/re_temp`num'.dta"
        }


* 定义面板数据
qui xtset panelID PERIOD

* 将f(T) x OMEGA 加入至结果变量中
qui replace Y = Y + TREND*PERIOD

* 将处理效应 TREATMENT 加入至结果变量中 ，以t=5为接受处理的时点
qui replace  Y = Y + T1 if PERIOD >=6
qui replace  Y = Y + T2 if PERIOD >=6

* 生成 TREATMENT x POST DID 变量，其系数即我们考察的处理效应
qui gen T1_POST = T1 * (PERIOD >=6)
qui gen T2_POST = T2 * (PERIOD >=6)

* 在结果变量中加入随机扰动项
qui replace Y = Y + rnormal(0,0.1)
* 存储数据以进行下一步运算
save "TEMP/temp", replace

3. DID 估计与 Stata 的实现

我们首先采用 OLS DD 估计模拟数据的处理效应。

** 估计 OLS DD
reg Y T1_POST T2_POST i.PERIOD, abs(panelID)
------------------------------------------------------------------------------
           Y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     T1_POST |   .6451472   .0786551     8.20   0.000     .4909652    .7993292
     T2_POST |   .3899474   .0813273     4.79   0.000     .2305274    .5493675
             |
      PERIOD |
          2  |   .2779982   .0528507     5.26   0.000     .1743988    .3815976
          3  |   .8783501   .0528507    16.62   0.000     .7747507    .9819495
          4  |   1.648978   .0528507    31.20   0.000     1.545378    1.752577
          5  |   1.991826   .0528507    37.69   0.000     1.888226    2.095425
          6  |   2.832213   .0769469    36.81   0.000      2.68138    2.983046
          7  |   2.538575   .0769469    32.99   0.000     2.387742    2.689409
          8  |   3.607691   .0769469    46.89   0.000     3.456857    3.758524
          9  |   3.472193   .0769469    45.12   0.000      3.32136    3.623027
         10  |   4.313866   .0769469    56.06   0.000     4.163033      4.4647
             |
       _cons |   1.315558   .0373711    35.20   0.000     1.242303    1.388814
------------------------------------------------------------------------------

其次，我们已知生成样本数据所采用的抽样比率 $F_{i}$ ，由此可通过 WPT DD 估计处理效应：

** 采用抽样权重估计 WPT DD
reg Y T1_POST T2_POST i.PERIOD [w=MODELW], abs(panelID)

------------------------------------------------------------------------------
           Y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     T1_POST |   .8356594   .0766697    10.90   0.000     .6853693    .9859495
     T2_POST |     1.0463   .0769499    13.60   0.000     .8954609    1.197139
             |
      PERIOD |
          2  |   .3825006   .0507956     7.53   0.000     .2829295    .4820716
          3  |   1.083468   .0507956    21.33   0.000     .9838966    1.183039
          4  |   1.959798   .0507956    38.58   0.000     1.860227    2.059369
          5  |   2.404149   .0507956    47.33   0.000     2.304578     2.50372
          6  |   2.931054   .0742346    39.48   0.000     2.785538    3.076571
          7  |   2.739205   .0742346    36.90   0.000     2.593688    2.884722
          8  |   3.910568   .0742346    52.68   0.000     3.765051    4.056084
          9  |   3.879056   .0742346    52.25   0.000     3.733539    4.024573
         10  |   4.824459   .0742346    64.99   0.000     4.678942    4.969976
             |
       _cons |   1.420531   .0359179    39.55   0.000     1.350124    1.490938
------------------------------------------------------------------------------

下文我们将分别通过网格搜索法 ( Grid Search ) 与迭代法 ( Iterative Approach ) 搜索 $S_{i}$ ，进而对处理效应作 WPT DD 估计。

3.1 网格搜索 ( Grid Search )

我们假定抽样权重 $\hat{S_{i}}=\sum_{m}q_{m}b_{m}^{i}$ ，并且研究者已知 $b_{i}^{m}$ ，因此我们尝试通过网格搜索的方法确定 $Q=(q_{m=1},q_{m=2},q_{m=3})$ 。若将步长设定为 0.1，则搜索范围为 $q_m = 0, \ 0.1, \ 0.2, \cdots, 1 \ (m=1,2,3)$ 。在迭代搜索的过程中将采用如下模型估计：

$\Delta \dot{y}_{i1}=c_{Q}^{0}+\sum_{n}c_{Q}^{n} \dot{D}_{i}^{n}+\eta_{Qi} \quad (4)$

$\Delta y_{i1}$ 是结果变量自第 1 期至第 2 期的变动幅度，变量上加点表明该变量经标准化处理； $c_{Q}^{n}$ 衡量了样本在该期间的标准化处理效应。我们试图寻找参数 $Q$ 使 $\Delta y_{i,pre}$ 与 $D_{i}^{n}$ 的相关性最小化，即使 $c_{Q}^{n}$ 最小化。

可采用的目标函数共分为 3 类，分别为：

叠加法 (additive approach)：最小化目标方程 $B^{A}=\sum _{n} (\hat{c}_{Q}^{n})^2$ 。
连乘法 (multiplicative approach)：最小化目标方程 $B^{m}=\prod_{n} (\hat{c}_{Q}^{n})^2$ 。
极值法 (min-max approach)：最小化目标方程 $B^{M}=max(| \hat{c}_{Q}^{n} |)$ 。

在网格搜索中，我们选择叠加法进行演算，即最小化目标方程 $B^{A}=\sum _{n} (\hat{c}_{Q}^{n})^2$ 。

* 导入数据并调整数据格式
qui u "TEMP/temp", clear
    keep if PERIOD ==2
    keep ID Y
    ren Y Y2
    save "TEMP/ptwtemp", replace
qui u "TEMP/temp", clear
    keep if PERIOD ==1
    merge m:m ID using "TEMP/ptwtemp.dta"
    drop _m
    ren Y Y1
    erase "TEMP/ptwtemp.dta"

* 生成结果变量自第1期至第2期的变化值
    gen DELTA = Y2- Y1

* 将个体特征变量标准化
    foreach num of numlist 1/3 {
    gen VAR`num'= h`num'
    sum VAR`num',d
    gen wa_VAR`num' = VAR`num'- r(min)
    replace wa_VAR`num' = wa_VAR`num'/r(sd)
    }

* 将TREATMENT VARIABLE标准化
    sum T1
    replace T1 = T1/ r(sd)
    sum T2
    replace T2 = T2 / r(sd)

* 生成网格搜索法中需要用到的暂时性变量
    gen wa = .
    gen OBJ = .
    gen OBJmin = .
    gen VAR1min = .
    gen VAR2min = .
    gen VAR3min = .
    gen wa_min = .

* 确定搜索范围与搜索步长
    local min = 0
    local max = 1
    local step = 0.1

* 运行网格搜索

* 开启对q1的循环
local om_VAR1 = `min'
while `om_VAR1' <= `max' {
    * 开启对q2的循环
    local om_VAR2 = `min'
    while `om_VAR2' <= `max' {
        * 开启对q3的循环
        local om_VAR3 = `min'
        while `om_VAR3' <= `max' {

            * 生成权重Si
            qui replace wa = `om_VAR1'*wa_VAR1+`om_VAR2'*wa_VAR2+`om_VAR3'*wa_VAR3
            * 确保抽样权重Si>0
            qui sum wa
            if r(mean) > 0 {
            * 对Si作标准化处理
            qui replace wa = wa / r(mean)
            * 依照模型(4)进行加权回归估计处理效应
            qui reg DELTA T1 T2 [iw=wa]
            * 计算目标方程
            qui replace OBJ = _b[T1]^2+_b[T2]^2
            * 若 qm 使目标方程较上一轮循环更小，则存储参数
            qui replace VAR1min = `om_VAR1' if OBJ < OBJmin
            qui replace VAR2min = `om_VAR2' if OBJ < OBJmin
            qui replace VAR3min = `om_VAR3' if OBJ < OBJmin
            * 若目标方程较上一轮循环更小，存储计算所得的 WPT 权重 Si
            qui replace wa_min = wa if OBJ < OBJmin
            qui replace OBJmin  = OBJ if OBJ < OBJmin
            display "VAR1 "`om_VAR1' " VAR2 " `om_VAR2' " 'VAR3 " `om_VAR3'
                    }
                    else {
                    }
            * 结束对q3的循环
            local om_VAR3 = `om_VAR3'+`step'
            }
        * 结束对q2的循环
        local om_VAR2 = `om_VAR2'+`step'
        }
    * 结束对q1的循环
    local om_VAR1 = `om_VAR1'+`step'
    }

* 结束循环并存储样本权重
    ren wa_min WA_MC
    keep ID WA_MC
    save "TEMP/WA_MC.dta", replace

* 将计算所得的样本权重与原模拟数据进行合并
    qui u "TEMP/temp", clear
    qui merge m:m ID using "TEMP/WA_MC.dta"
    erase "TEMP/WA_MC.dta"
    qui tab _m
    qui drop _m

* 估计 WPT DD
    reg Y T1_POST T2_POST i.PERIOD [w=WA_MC], abs(panelID)

* 去除权重变量
    qui drop WA_MC

我们得到 WPT DD 的估计结果如下：

reg Y T1_POST T2_POST i.PERIOD [w=WA_MC], abs(panelID)

------------------------------------------------------------------------------
           Y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     T1_POST |   .8385112    .077283    10.85   0.000     .6870188    .9900035
     T2_POST |   1.090782   .0778193    14.02   0.000     .9382385    1.243326
             |
      PERIOD |
          2  |   .3796894   .0510905     7.43   0.000     .2795404    .4798385
          3  |   1.079326   .0510905    21.13   0.000     .9791772    1.179475
          4  |   1.952109   .0510905    38.21   0.000      1.85196    2.052258
          5  |   2.392124   .0510905    46.82   0.000     2.291975    2.492273
          6  |   2.893577   .0748875    38.64   0.000      2.74678    3.040373
          7  |    2.69863   .0748875    36.04   0.000     2.551833    2.845426
          8  |   3.865206   .0748875    51.61   0.000     3.718409    4.012002
          9  |   3.832881   .0748875    51.18   0.000     3.686084    3.979677
         10  |    4.77509   .0748875    63.76   0.000     4.628293    4.921886
             |
       _cons |   1.417661   .0361264    39.24   0.000     1.346845    1.488477
------------------------------------------------------------------------------

3.2 迭代法 ( Iterative Approach )

迭代法中，我们以 $\hat{S_{i}}^{s=1}=1$ 作为迭代循环的起点 ( s = 1 表示第一轮循环)。在每一轮循环中首先估计如下模型：

$\Delta \dot{y}_{i1}=c_{s}^{0}+\sum_{n}c_{s}^{n} \dot{D}_{i}^{n}+\Psi_{si} \quad (5)$

其中 $c_{s}^{n}$ 是我们关注的处理效应。随后在模型 (5) 中加入处理变量与个体特征变量的交乘项 $\dot{D}_{i}^{n}\times b_{i}^{m}$ 进行估计：

$\Delta \dot{y}_{i1}=b_{s}^{0}+\sum_{n}b_{s}^{n} \dot{D}_{i}^{n}+\sum_{m} \sum_{n}b_{s}^{n,m} \dot{D}_{i}^{n}\times b_{i}^{m}+\xi_{si} \quad (6)$

在模型 (6) 中，估计得到的边际处理效应为
$\hat{\pi}_{i}^{n}= \partial \dot{y}_{i1}/\partial \dot{D}_{i}^{n}=\hat{b}_{s}^{n}+\sum_{m} \sum_{n} \hat{b}_{s}^{n,m} \times b_{i}^{m}$

迭代的具体思路为：每一轮循环对权重 $\hat{S}_{i}^{s}$ 的计算均基于上一轮循环所得权重 $\hat{S}_{i}^{s-1}$ 以及本轮循环估计模型 (6) 得到的边际处理效应 $\hat{\pi}_{i}^{n}$ 进行调整，即 $\hat{S}_{i}^{s,n}=g(\hat{S}_{i}^{s-1,n},\hat{\pi}_{i}^{n})$ 。

当模型 (5) 估计所得 $c_{s}^{n}<0$ 时，我们在 $\hat{S}_{i}^{s-1}$ 的基础上赋予 $\hat{\pi}_{i}^{n}>0$ 的个体更高权重，此时 $g_S>0,g_{\pi}>0$ ；当模型 (5) 估计所得 $c_{s}^{n}>0$ 时，我们在 $\hat{S}_{i}^{s-1}$ 的基础上赋予 $\hat{\pi}_{i}^{n}<0$ 的个体更高权重，此时 $g_S>0,g_{\pi}<0$ 。如此一来，经过多次迭代后可使得 $\mid \hat{c}_{s}^{n} \mid$ 最小化。

迭代法中我们选取目标方程是 $B^{M}=max(|\hat{c}^{1}|, |\hat{c}_{s}^{2}|)$ ，当目标方程函数值小于我们设定的门槛值 0.005 时，即 $B^{M}<0.005$ 时，循环结束。

* 存储数据
save "TEMP/temp", replace

* 清除内存
set more off
estimates drop _all
program drop _all

* 设定迭代次数为100
local MAX = 100
* 设定目标方程的目标值为0.005
local TARGET = 0.005

* 导入数据并整理数据格式
u "TEMP/temp.dta", clear
keep if PERIOD ==2
keep ID Y
ren Y Y2
save "TEMP/ptwtemp.dta", replace
u "TEMP/temp.dta", clear
keep if PERIOD ==1
merge m:m ID using "TEMP/ptwtemp.dta"
drop _m
ren Y Y1
erase "TEMP/ptwtemp.dta"

* 生成结果变量自第1期至第2期的变化值
    gen DELTA = Y2- Y1

* 对结果变量和处理变量作标准化处理
    foreach var of varlist DELTA T1 T2 {
        qui sum `var'
        qui gen S_`var' = `var'/r(sd)
        }
* 生成处理变量T1 T2与个体特征变量bm的交乘项
    qui foreach var1 of varlist S_T1 S_T2 {
        foreach var2 of varlist h1 h2 h3 {
        gen `var1'_`var2' = `var1'*`var2'
        }
        }
* 生成迭代所需要的暂时性变量
    gen W = 1
    gen W1 = 1
    gen W2 = 1
    gen WOLD = 1
    qui gen ME_T1 = .
    qui gen ME_T2 = .
    gen WBEST = 1
    gen bBEST = 100
    scalar TH = 0.00
    gen R = .

* 定义迭代法所使用的程序 ************************************************
    program ALGO
        * 估计模型(5)
            qui replace WOLD = W
            qui reg S_DELTA S_T1 S_T2 [w=W]
        * 存储估计所得的处理效应 (模型(5)中的c_s^n)
            qui scalar bT1 = _b[S_T1]
            qui scalar bT2 = _b[S_T2]
        * 存储目标方程的函数值
            qui scalar bsum = abs(bT1)+abs(bT2)

        * 估计模型(6)
            qui reg S_DELTA S_T1 S_T2 S_T1_h* S_T2_h* [w=W]
        * 存储估计所得的处理效应 (模型(6)中的b_s^n,m)
                qui replace ME_T1 = _b[S_T1]
                qui replace ME_T2 = _b[S_T2]
                qui foreach num of numlist 1/3 {
                qui     replace ME_T1 = ME_T1 + _b[S_T1_h`num']*h`num'
                qui     replace ME_T2 = ME_T2 + _b[S_T2_h`num']*h`num'
                }

        * 生成调整后的权重Si

            * TREATMENT 1 (第一类处理效应)
                * 若模型(5)中估计所得的处理效应为负
                qui if bT1 < -1*TH {
                display "neg"
                * 增加处理效应为正的个体在样本中的权重
                replace W1 = W + W*ME_T1 if ME_T1 > 0
                }
                else {
                * 若模型(5)中估计所得的处理效应为正
                if bT1 > TH {
                        display "pos"
                 * 增加处理效应为负的个体在样本中的权重
                         replace W1 = W - W*ME_T1 if ME_T1 < 0
                        }
                        else {
                        }
                    }
                        else {
                        }

            * TREATMENT 2 (第二类处理效应)
                * 若模型(5)中估计所得的处理效应为负
                qui if bT2 < -1*TH {
                display "neg"
                * 增加处理效应为正的个体在样本中的权重
                replace W2 = W + W*ME_T2 if ME_T2 > 0
                }
                else {
                * 若模型(5)中估计所得的处理效应为正
                if bT2 > TH {
                        display "pos"
                 * 增加处理效应为负的个体在样本中的权重
                        replace W2 = W - W*ME_T2 if ME_T2 < 0
                        }
                        else {
                        }
                    }
                        else {
                        }

        * 根据两类处理效应的估计结果对权重进行调整
        * 对于绝对值较大的处理效应给予更大幅度的调整
            qui replace W =[exp(abs(bT1))* W1+exp(abs(bT2))*W2] / [exp(abs(bT1))+exp(abs(bT2))]
        * 基于新生成的权重估计模型(5)
            qui reg S_DELTA S_T1 S_T2 [w=W]
        * 将处理效应存储为单值
            qui scalar bT1new = _b[S_T1]
            qui scalar bT2new = _b[S_T2]
        * 计算新的目标方程函数值
            qui scalar bsumnew = abs(_b[S_T1])+abs(_b[S_T2])
        * 基于目标方程的函数值判定是否对权重进行更新
            qui replace bBEST = bsumnew if  bsumnew bBEST + 0.025 {
                replace W = 0.8*WBEST+0.2*W
                }
                else {
                }

    end
* 程序ALGO定义结束    ****************************************************


* 迭代循环过程 *************************************************************
    local it = 1

    while `it' < `MAX'  {
        * 运行以上定义的程序 ALGO
        qui ALGO
        * 基于本轮循环得到的权重估计处理效应
        qui reg S_DELTA S_T1 S_T2 [w=W]
        * 存储估计所得处理效应
        qui local T1CORR = _b[S_T1]
        qui local T2CORR = _b[S_T2]

        * 展示迭代结果
        display "Iteration "`it' " T1 CORR " `T1CORR' " T2 CORR " `T2CORR'

        * 检验是否达到目标方程函数值小于0.005的目标
        if abs(`T1CORR') < `TARGET' & abs(`T2CORR') < `TARGET' {
            local it = 1000
            }
            else {
            local it = `it'+1
            }
        }
* 存储最终得到的pre-treatment period的处理效应
    reg  S_DELTA S_T1 S_T2 [w=W]
    scalar T1CORR = _b[S_T1]
    scalar T2CORR = _b[S_T2]

* 存储最终得到的最优权重
    qui sum W
    gen WA_MC = W / r(mean)
    keep ID WA_MC
    save "TEMP/WA_MC.dta", replace

* 将原模拟数据与权重数据合并
    qui u "TEMP/temp", clear
    qui merge m:m ID using "TEMP/WA_MC.dta"
    erase  "TEMP/WA_MC.dta"
    qui tab _m
    qui drop _m
* 估计 WPT DD
    reg Y T1_POST T2_POST i.PERIOD [w=WA_MC], abs(panelID)

* 去除权重变量
    qui drop WA_MC
    erase "TEMP/temp.dta"

我们得到 WPT DD 的估计结果如下：

reg Y T1_POST T2_POST i.PERIOD [w=WA_MC], abs(panelID)

------------------------------------------------------------------------------
           Y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     T1_POST |   .8385112    .077283    10.85   0.000     .6870188    .9900035
     T2_POST |   1.090782   .0778193    14.02   0.000     .9382385    1.243326
             |
      PERIOD |
          2  |   .3796894   .0510905     7.43   0.000     .2795404    .4798385
          3  |   1.079326   .0510905    21.13   0.000     .9791772    1.179475
          4  |   1.952109   .0510905    38.21   0.000      1.85196    2.052258
          5  |   2.392124   .0510905    46.82   0.000     2.291975    2.492273
          6  |   2.893577   .0748875    38.64   0.000      2.74678    3.040373
          7  |    2.69863   .0748875    36.04   0.000     2.551833    2.845426
          8  |   3.865206   .0748875    51.61   0.000     3.718409    4.012002
          9  |   3.832881   .0748875    51.18   0.000     3.686084    3.979677
         10  |    4.77509   .0748875    63.76   0.000     4.628293    4.921886
             |
       _cons |   1.417661   .0361264    39.24   0.000     1.346845    1.488477
------------------------------------------------------------------------------

4. WPT DD 的估计结果解读

Ahlfeldt (2018) 进行了总计 1000 次蒙特卡洛模拟实验，图 1 呈现了蒙特卡洛模拟计算所得的处理效应 T1 和 T2 的分布，表 1 展示了处理效应分布的均值、中位数和标准差。

由图表可以看出，OLS DD 估计所得处理效应明显下偏，低于我们实际设定的处理效应 $\alpha_n=1$ 。通过网格搜索 ( Grid Search ) 与迭代法 ( Iterative Approach ) 调整所得的处理效应则集中于我们的设定值 1 附近，经过多次模拟计算所得的处理效应均值 $\hat{\alpha}_n$ 亦更接近于 1。与网格搜索 ( Grid Search ) 相比，迭代法 ( Iterative Approach ) 对应的估计结果更加离散，但估计准确度仍然显著优于 OLS DD 。

由此可以看出，WPT DD 有利于改善因违背平行趋势假设导致 DID 估计结果有偏的问题。

参考文献

Ahlfeldt, G. M., 2018, Weights to address non-parallel trends in panel difference-in-differences models, CESifo Economic Studies, 64 (2): 216-240. [PDF]
多期 DID：平行趋势检验图示
Stata: 多期倍分法 (DID) 详解及其图示

连享会 - 文本分析与爬虫 - 专题视频

主讲嘉宾：司继春 || 游万海

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aZVsF6wy-1587136104878)(https://fig-lianxh.oss-cn-shenzhen.aliyuncs.com/lanNew-文本分析-海报002.png “连享会-文本分析与爬虫-专题视频，四天课程，随随时学”)]

关于我们

Stata 连享会 由中山大学连玉君老师团队创办，定期分享实证分析经验。直播间有很多视频课程，可以随时观看。
你的颈椎还好吗？ 您将 ::连享会-主页:: 和 ::连享会-知乎专栏:: 收藏起来，以便随时在电脑上查看往期推文。
公众号推文分类： 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类，主流方法介绍一目了然：DID, RDD, IV, GMM, FE, Probit 等。
公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标，输入简要关键词，以便快速呈现历史推文，获取工具软件和数据下载。常见关键词：
- 课程, 直播, 视频, 客服, 模型设定, 研究设计,
- stata, plus，Profile, 手册, SJ, 外部命令, profile, mata, 绘图, 编程, 数据, 可视化
- DID，RDD, PSM，IV，DID, DDD, 合成控制法，内生性, 事件研究
- 交乘, 平方项, 缺失值, 离群值, 缩尾, R2, 乱码, 结果
- Probit, Logit, tobit, MLE, GMM, DEA, Bootstrap, bs, MC, TFP
- 面板, 直击面板数据, 动态面板, VAR, 生存分析, 分位数
- 空间, 空间计量, 连老师, 直播, 爬虫, 文本, 正则, python
- Markdown, Markdown幻灯片, marp, 工具, 软件, Sai2, gInk, Annotator, 手写批注
- 盈余管理, 特斯拉, 甲壳虫, 论文重现
- 易懂教程, 码云, 教程, 知乎

你可能感兴趣的:(倍分法DID)

百度快速收录2025最新科普 SEORoal 百度
跨境物流的智能突围战宁波某RCEP跨境物流平台接入214维特征矩阵后：✅'智能清关系统’72小时冲进TOP3✅'东盟电子报关’长尾词覆盖量暴涨4.2倍✅日均有效询盘突破300+技术三板斧：标题智能提取引擎（支持38种语义变异）动态阻抗参数混淆（误差≤0.15μΩ）实时工商特征同步（每2小时更新）2025生存指南：采用神经网络语义映射（NLP准确率98.2%）部署质量监控系统（误差率≤0.15%）加
MySQL慢SQL优化方案详解：从诊断到根治的完整指南 jiajia651304 mysql sql ffmpeg
MySQL慢SQL优化方案详解：从诊断到根治的完整指南一、慢SQL的致命影响当数据库响应时间超过500ms时，系统将面临三大灾难链式反应：用户体验崩塌页面加载超时率上升37%用户跳出率增加52%核心业务转化率下降29%系统稳定性危机连接池耗尽风险提升4.8倍主从同步延迟突破10秒阈值磁盘IO利用率长期超90%运维成本飙升DBA故障处理时间增加65%硬件扩容频率提高3倍夜间告警量激增80%通过监控系
如何安装dotenv，避坑指南，安装包的包名有误？兰若姐姐 AI大模型 python 开发语言 chatgpt
嗨，大家好，我是蓝若姐姐。最近在研究AI大模型，想写一个调用openai接口的demo，结果发现在装一个三方库的时候一直报错，mac电脑安装dotenv报错，具体情况是执行这个命令：pipinstalldotenv遇到报错：error:subprocess-exited-with-error，pipsubprocesstoinstallbackenddependenciesdidnotrunsuc
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
strtr和str_replace效率探索 hello_simon php
今天写代码用到字符串规制，就上网查了下strtr与str_replace的效率如何，网上一些地方说strtr比str_replace快四倍。半信半疑，自己就做了下测试。strtr比较怪异，用法这里不提。只做两种这两个函数可以替换用的测试例子。第一种list($usec,$sec)=explode('',microtime());$star=$usec+$sec;$string='paocaiasd
从理论到实践：零拷贝技术的全面解读超越不平凡 Java基础 Java 零拷贝
目录一、I/O工作方式1.1DMA二、零拷贝2.1传统数据拷贝2.2Java应用数据处理2.3.零拷贝流程三、零拷贝案例四、总结一、I/O工作方式磁盘可以说是计算机系统中最慢的硬件之一，读写速度相差内存10倍以上，所以针对磁盘的优化技术非常多。下面以文件传输为切入线分析I/O的工作方式。在没有DMA技术前，I/O是这样工作的，如下图：用户发起read调用，CPU将对应的指令给磁盘控制器，然后返回；
华为鸿蒙实现重大突破，超4000个应用程式加入 ggtdfgfdg 华为 harmonyos
华为开发者学堂自从华为Mate60系列携自研麒麟9000S5G处理器强势回归后，美西方就已经陷入了深深的自我怀疑，拜登对华为的重拳打压，难道都是“摆设”吗？芯片没有被阻拦，就连操作系统也迎来了重大突破，美国最不愿意看到的事情还是发生了！近日，华为鸿蒙传来重磅消息，在华为开启“原生鸿蒙应用”计划之后，短短2个月的时间，鸿蒙系统的应用程序就已经超过了4000个，激增20倍之多。除了主流的应用程序之外，
微软为何选择用Go而非Rust重写TypeScript 前端typescript
最近，TypeScript宣布用Go语言全面重写TypeScript。重写后的ts在某些测试中实现了10倍的速度提升(例如对于VSCode项目)，有的甚至高达15倍。A10xFasterTypeScript短短几天,其官方库typescript-gostar数超过了1.4万,各种文章纷至沓来.但同时大家有一个疑惑,为什么微软选用了Go,而不是最近几年重写万物的Rust?(WhyGo?)就此,Mic
李彦宏官宣第二届“文心杯”创业大赛，最高投资奖励翻5倍达5000万
4月16日，百度创始人、董事长兼首席执行官李彦宏在Create2024百度AI开发者大会上宣布，第二届“文心杯”创业大赛正式启动，参赛选手有机会获得最高5000万人民币投资。李彦宏在Create2024百度AI开发者大会的演讲主题是“人人都是开发者”，他指出，“AI正在掀起一场创造力革命，未来开发应用就像拍个短视频一样简单，人人都是开发者，人人都是创造者。”李彦宏表示：“去年5月份，百度启动了‘文
Leetcode刷题--贪心--数组拆分库库刷题 leetcode 贪心 leetcode 算法
Leetcode刷题–贪心leetcode561–数组拆分题目描述（简单题）给定长度为2n的整数数组nums，你的任务是将这些数分成n对,例如(a1,b1),(a2,b2),…,(an,bn)，使得从1到n的min(ai,bi)总和最大。返回该最大总和。示例1：输入：nums=[1,4,3,2]输出：4解释：所有可能的分法（忽略元素顺序）为：(1,4),(2,3)->min(1,4)+min(2,
从代码民工到架构大师：为什么顶尖程序员的价值是普通人的100倍？苏师兄编程职场发展架构职场发展
大家好！我是苏师兄，一名工作多年的程序员，也是公众号【苏师兄编程】的主理人。凌晨三点的写字楼里，小张盯着屏幕上跳动的红色报错信息，这是他本月第三次被叫去处理线上故障。与之形成鲜明对比的是，隔壁工位的王工总能优雅地抿着咖啡，在系统监控大屏前用几行脚本化解危机。这两个场景每天都在互联网公司的各个部门上演——这就是普通程序员与顶尖技术人才之间的真实差距。一、被时代抛弃的"CRUD工种"在某电商公司的后台
webpack和vite的区别阿丽塔~ 前端面试 vite webpack
主要区别是：1.构建速度Vite：开发环境下，Vite利用浏览器原生支持的ES模块（ESM），按需编译和加载模块，避免了全量打包。这使得Vite的启动速度和热更新速度极快，尤其在大型项目中优势明显。使用esbuild进行依赖预构建，性能比基于JavaScript的工具快10-100倍。Webpack：需要分析所有模块的依赖关系并进行全量打包，导致启动和热更新速度较慢，尤其是在项目规模较大时。2.打
11B模型拿下开源视频生成新SOTA！仅用224张GPU训练，训练成本省10倍量子位
关注前沿科技量子位224张GPU，训出开源视频生成新SOTA！Open-Sora2.0正式发布。11B参数规模，性能可直追HunyuanVideo和Step-Video（30B）。要知道，市面上诸多效果相近的闭源视频生成模型，动辄花费数百万美元训练成本。而Open-Sora2.0，将这一数字压缩到了20万美元。同时，此次发布全面开源模型权重、推理代码及分布式训练全流程，开发者们可以看过来！GitH
【工厂老板必看】智能切割算法帮您省 30% 原材料！附真实案例——一维下料问题算法、cad c#二次开发山水CAD筑梦人 CAD C#二次开发算法
一、行业痛点：原材料浪费有多严重？现象：传统人工排料导致大量边角料，例如：某钢材厂每月因切割不合理损失15万元木材加工厂平均浪费率高达25%核心问题：无法兼顾切割数量与材料利用率人工计算耗时且容易出错二、解决方案：贪心算法和遗传算法切割优化系统技术原理（通俗解释）：用贪心算法和遗传算法通过编程，自动生成最优切割方案，比人工排料效率高100倍以上！核心优势：省材料：原材料总根数减少20%-40%降成
《SQL应用场景解析：如何通过SQL解决实际业务问题》
新手程序员如何用三个月成为SQL高手？万字自学指南带你弯道超车在数据为王的时代，掌握SQL已成为职场新人的必修课。你可能不知道，仅用三个月系统学习，一个零基础的小白就能完成从数据库萌新到SQL达人的蜕变。去年刚毕业的小王就是典型例子，通过本文的学习路线，他不仅成功转行数据分析师，薪资更是翻了两倍。本文将为你揭秘这条高效的学习路径，让你少走90%的弯路。[]()一、为什么每个职场新人都需要SQL这把
代码随想录算法训练营第一天| 704. 二分查找、27. 移除元素 Anjoubecoding c++算法数据结构 leetcode
一、Leetcode704二分查找题目链接：Leetcode704这个题目在之前秋招准备的时候就刷了，好几个月没刷又忘了这个题目的思想，二分法的使用前提是有序数组，这里主要是看查找区间是左闭右闭还是左闭右开，这两种方法都可以，不同方法对应着不同的while循环条件(是left&nums,inttarget){intleft=0,right=nums.size()-1,middle=(left+ri
求助各位大佬，Preparing metadata (pyproject.toml) ... error如何解决 m0_67130860 python
Installingbuilddependencies...doneGettingrequirementstobuildwheel...donePreparingmetadata(pyproject.toml)...errorerror:subprocess-exited-with-error×Preparingmetadata(pyproject.toml)didnotrunsuccessful
微积分-分部积分法 Midsummer-逐梦数学数学建模
一、分部积分的基本形式分部积分法是微积分中的一个技巧，用于求解不定积分，特别适用于具有乘积形式的函数。分部积分法的公式表达为：∫u dv=uv−∫v du\intu\,\mathrm{d}v=uv-\intv\,\mathrm{d}u∫udv=uv−∫vdu其中，uuu和dv\mathrm{d}vdv是待积函数的两个部分，uuu通常是一个可导函数，dv\mathrm{d}vdv则是可积的函数。通过
PCL 点云迭代加权最小二乘法拟合平面（抑制噪声）大鱼BIGFISH 点云进阶最小二乘法平面 C++PCL 迭代加权
文章目录一、简介二、实现代码三、实现效果参考资料一、简介受到之前博客的启发（Matlab点云最小二乘法拟合平面（剔除噪声）），我们不仅可以通过剔除一些异常点来拟合更为合适的平面，而且还可以在这个过程中对每个点进行加权来抑制噪声点，双管齐下也可以使得算法更具鲁棒性，并拟合出合适的平面，具体过程如下所示：1、首先使用加权的最小二乘法拟合一个平面系数的初值。2、计算所有有效点到拟合平面的距离did_i
【踩坑记录】MAC M4 mini 系统初始化 (づど) macos
①一定要准备好一个usb拓展坞，否则连不上键鼠！②初始化时，跳过mac账号登录，进入系统后再登录快一百倍！③安装nvm，遇到报错：xcode-select:note:installrequestedforcommandlinedevelopertools解决方法：xcode-select:note:installrequestedforcommandlinedevelopertools-CSDN博
蓝桥杯 k倍区间我不是彭于晏丶蓝桥杯算法数据结构
题目描述给定一个长度为NN的数列，A1,A2,⋯ANA1,A2,⋯AN，如果其中一段连续的子序列Ai,Ai+1,⋯AjAi,Ai+1,⋯Aj(i≤ji≤j)之和是KK的倍数，我们就称这个区间[i,j][i,j]是K倍区间。你能求出数列中总共有多少个KK倍区间吗？输入描述第一行包含两个整数NN和KK(1≤N,K≤1051≤N,K≤105)。以下N行每行包含一个整数AiAi(1≤Ai≤1051≤Ai≤
C++位运算：数据底层的二进制魔法卫青~护驾！算法 c++青少年编程开发语言位运算
一、位运算的核心价值极速运算位运算直接操作内存中的二进制位，无需转换为十进制，执行效率比常规算术运算高10倍以上//传统方式if(n%2==0)//位运算优化if((n&1)==0)空间优化通过位掩码技术，可用单个整型变量存储32个布尔状态（每位代表一个状态）constintFLAG_A=1<<0;//00000001constintFLAG_B=1<<1;//00000010算法加速快速幂、位图
深度集成DeepSeek与Java开发：智能编码新纪元全攻略 [特殊字符] 添砖Java中开发语言 java maven spring boot deepseek
一、DeepSeek：Java开发者的第二大脑1.1传统开发痛点VS智能开发体验传统开发DeepSeek智能辅助效率提升对比手动编写重复代码一键生成模板代码代码量减少70%↑调试全靠断点日志智能定位缺陷根源问题排查时间缩短60%↓文档维护耗时费力自动生成更新文档文档编写效率提升5倍↑性能优化依赖经验数据驱动的优化建议系统吞吐量提高30%↑新框架学习曲线陡峭实时生成最佳实践示例上手速度加快50%↑二
【光流】——liteflownet论文与代码浅读农夫山泉2号光流计算机视觉深度学习人工智能光流 liteflownet
光流，liteflownetcode:mmflowCVPR20181.前言FlowNet2是最先进的光流估计卷积神经网络(CNN)，需要超过160M的参数来实现精确的流量估计。在本文中，我们提出了一种替代网络，它在Sintel和KITTI基准测试上优于FlowNet2，同时在模型尺寸上要小30倍，在运行速度上要快1.36倍。这是通过深入研究当前框架中可能被遗漏的架构细节而实现的：（1）我们通过轻量
8.3 GPTQ量化技术：4倍压缩大模型显存，精度零损失！少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力语言模型人工智能 gpt
GPTQ量化技术：4倍压缩大模型显存，精度零损失！8.2GPTQ：专为GPT设计的模型量化算法一、模型量化技术背景在讨论GPTQ之前，我们需要先理解大模型部署面临的显存困境。以LLaMA-7B模型为例：FP32精度显存占用：28GBFP16精度显存占用：14GBINT8量化后显存占用：7GBINT4量化后显存占用：3.5GB
算力安全创新驱动未来趋势endofsentence 智能计算研究中心其他
内容概要算力安全与技术创新正在重塑全球算力生态，其核心驱动力来自异构计算、边缘计算及量子计算等前沿技术的深度融合。当前算力架构正经历从集中式向分布式演进，通过异构加速芯片、动态资源调度算法及绿色能效优化，显著提升算力基础设施的可扩展性与可靠性。例如，异构计算通过CPU、GPU、FPGA的协同加速，使复杂模型训练效率提升40%以上。关键数据：根据IDC预测，到2025年全球智能算力需求将增长30倍，
RoboVQA：机器人多模态长范围推理三谷秋水计算机视觉智能体大模型机器人人工智能机器学习计算机视觉深度学习语言模型
23年11月来自GoogleDeepmind的论文“RoboVQA:MultimodalLong-HorizonReasoningforRobotics”。本文提出一种可扩展、自下而上且本质多样化的数据收集方案，该方案可用于长期和中期的高级推理，与传统的狭窄自上而下的逐步收集相比，其吞吐量提高2.2倍。通过在3栋办公楼内执行任何用户请求并使用多种具身（机器人、人类、带抓取工具的人类）来收集真实数据
用共线性分析的方法进行古基因组重构（前置知识与准备） ALPH_ 古基因组重构重构 wgdi 生物信息基因组 r语言-4.2.1 r语言数据分析
一、什么是全基因组加倍事件许多生物目前是多倍体，或者具有多倍体祖先并且现在具有次生的“二倍体化”基因组。这一发现令人惊讶，因为保留整个基因组重复（WGD）非常罕见，这表明多倍体往往是进化的死胡同。我们认为，古代基因组倍增可能只在非常特定的条件下能够存活，但是，无论何时建立，它们可能对物种多样化产生显著影响，并导致生物复杂性增加和进化新奇性的起源。全基因组复制（WGD）或多倍体，随后伴随基因丢失和二
linux 同一机器 mongodb 分片,MongoDB自动分片介绍吴炳忠 linux 同一机器 mongodb 分片
MongoDB自动分片介绍高性能、易扩展一直是MongoDB的立足之本，同时规范的文档和接口更让其深受用户喜爱，这一点从分析DB-Engines的得分结果不难看出——仅仅1年时间，MongoDB就完成了第7名到第五名的提升，得分就从124分上升至214分，上升值是第四名PotgreSQL的两倍，同时当下与PostgreSQL的得分也只相差16分不到。1.片键介绍数据划分(partitioning)
python mongo异步操作_让python调用mongo读写速度加速10倍的方法 weixin_39867125 python mongo异步操作
1.把mongo读写封装成api2.在api初始化时保持数据库长链接；并且用线程每2分钟遍历一次所有的表并count一次importsysimporttimeimportpymongoimportjsonimportlogimporttracebackimportthreading//库名test，表名test_tableserver_list=['test-mongos.all.serv:636
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi