基本概念#
考虑如下场景, 某大型制药公司研发了一款新药并想测试其疗效, 病人服用该药后病情果 真得到明显改善, 我们可以据此得出该药有效的结论吗? 显然是不能的, 因为根本不能明确病 情改善得益于药物, 而非其他混杂因素. 那么究竟应该怎么做才能真正测试疗效? 这就是因果推断的出发点.
设Di∈{0,1}表示个体i是否接受处置 (服药), 其中Di=1表示接受, Di=0表示不接受. 再设Yi,t代表个体i在t时刻的结果变量 (病人健康), 如果个体i在基期未接受处置且下一期也未接受, 此时Yi,t(0)表示个体i在t时刻的 潜在结果 (potential outcome) 如果个体i在基期未接受处置而在下一期接受, 则此时个体i在t时刻的潜在结果为Yi,t(1). 为了简化符号. 特别地, 当只有两期数据时, 下标t可以省略, Yi,2(1)和Yi,2(0)分别简化为Yi(1)和Yi(0).
下面我们只考虑两期数据的情形. 对于个体i, 处置D对她的 处置效应 (treatment effect) 为1
Δi=Yi(1)−Yi(0)值得注意的是, 由于我们无法同时观测到Yi(0)和Yi(1), 故而Δi是完全不可知的. 事实上, 我们只能观测到
Yi=DiYi(1)+(1−Di)Yi(0)然而, 我们或许仍能用 随机控制实验 (Randomized Controlled Trial, RCT) 来获取Δi的某些性质. 在某些情况下, 大型的随机实验可以让我们得到 平均处置效应 (Average Treatment Effect, ATE)
τ=E[Yi(1)−Yi(0)](C.1)这里的τ指的是Δi在总体上的平均值. 继续之前的例子, 个体服药效果Δi等于个体i在t时刻服药后的健康程度减去个体i在t时刻没有服药的健康程度, 因为她不能既服药又不服药, 所以Δi无法观测, 但是在一定假设下, RCT使得我们能够得到个体服药效果在总体中的平均值τ.
什么样的假设? 只需要求i.i.d.样本{Yi,Di}i=1n满足 个体稳定处置效应假设 (SUTVA) 以及 随机处置指派 (random treatment assignment), 也即
Yi{Yi(0),Yi(1)}=Yi(Di)⊥Di其中SUTVA表明任何个体的潜在结果不随其它个体是否接受处置而变化, 并且每一个体所接受的处置水平是唯一的, 因此处置所导致的潜在结果也是唯一 (该假设无法验证是否成立); 随机处置指派表明处置独立于潜在结果, 是完全随机化的.
基于SUTVA和随机处置指派, ATE可以被识别为
τ∗=E[Yi∣Di=1]−E[Yi∣Di=0](C.2)这是因为可以将τ∗分解为
τ∗=τ+bias其中
bias=(E[Yi(1)∣Di=1]−E[Yi(1)∣Di=0])P[Di=0]+(E[Yi(0)∣Di=1]−E[Yi(0)∣Di=0])P[Di=1]根据随机处置指派可知bias=0, 从而τ∗=τ. 根据式(C.2) 我们可以得到 均值差 (Difference-in-Means, DM) 估计量
τ^DM=n1−1Di=1∑Yi−n0−1Di=0∑Yi这里的nd=∣{i:Di=d}∣. DM估计量具有无偏性
E[τ^DM]=E[Yi(1)]−E[Yi(0)]=τ进一步, 在标准的CLT条件下可以证明
n(τ^DM−τ)dN(0,VDM)其中VDM=var[Yi(0)]/P[Di=0]+var[Yi(1)]/P[Di=1], 它的一致估计量为
V^DM=n1−11Di=1∑(Yi−n11Di=1∑Yi)2+n0−11Di=0∑(Yi−n01Di=0∑Yi)2线性回归模型与RCT的关系#
初级的计量经济学早已讲授过线性回归模型,这里将介绍它与RCT的关系. 仍考虑两期数据, 假设 数据生成过程(DGP) 为
Yi(d)=c(d)+Xi′β(d)+ei(d)(C.3)并且满足E[ei(d)∣Xi]=0且var[ei(d)∣Xi]=σ2. 简单起见, 我们还假设
P[Di=0]=P[Di=1]=21(C.4)此时
VDM=var[Yi(0)]/P[Di=0]+var[Yi(1)]/P[Di=1]=4σ2+∣∣β(0)+β(1)∣∣A2+∣∣β(0)−β(1)∣∣A2最后, 我们还可以不失一般性地假设E[Xi]=0. 另一方面, 根据DGP可知ATE可以表示为
τ=E[Yi(1)−Yi(0)]=c(1)−c(0)+E[Xi]⋅[β(1)−β(0)]自然而然, 可以得到τ的OLS估计量
τ^OLS=c^(1)−c^(0)+Xˉ′[β^(1)−β^(0)]这里的Xˉ=n−1∑i=1nXi. 进一步可以证明
n(τ^OLS−τ)dN(0,VOLS)并且VDM=VOLS+∣∣β(0)+β(1)∣∣A2, 可见使用OLS减少了线性DGP情况下的渐近误差. 这一结论毫不令人惊讶, 因为我们已经假设了DGP是线性的.
进一步, 对于任意DGP
Yi(d)=μd(Xi)+ei(d)仍然假定E[ei(d)∣Xi]=0, var[ei(d)∣Xi]=σ2, P[Di=1]=1/2. 易知
n(τ^DM−τ)dN(0,VDM2)其中
VDM2=4σ2+2var[μ0(Xi)]+2var[μ1(Xi)]另一方面, 考虑如下OLS估计量
τ^OLS2μ^d(Xi)=n−1i=1∑n[μ^1(Xi)−μ^0(Xi)]=c^(d)+Xi′β^(d)可以证明
n(τ^OLS2−τ)dN(0,VOLS2)并且VDM2=VOLS2+∣∣β(0)∗+β(1)∗∣∣A2, 这里的β(d)∗满足
[c(d)∗,β(d)∗]=argc,βminE[(Yi(d)−Xi′β−c)2]换言之, 无论μd(x)是否是线性函数, OLS几乎总能减少DM的渐近方差! 这也解释了为何在RCT中使用线性回归模型来推断ATE: 在SUTVA和随机处置指派下, RCT可以正确识别ATE, 并且OLS和DM均能得到ATE的一致估计量,但前者是渐近有效的.