林深见鹿
1207 字
6 分钟
随机控制实验

基本概念#

考虑如下场景, 某大型制药公司研发了一款新药并想测试其疗效, 病人服用该药后病情果 真得到明显改善, 我们可以据此得出该药有效的结论吗? 显然是不能的, 因为根本不能明确病 情改善得益于药物, 而非其他混杂因素. 那么究竟应该怎么做才能真正测试疗效? 这就是因果推断的出发点.

Di{0,1}D_i\in\{0,1\}表示个体ii是否接受处置 (服药), 其中Di=1D_i=1表示接受, Di=0D_i=0表示不接受. 再设Yi,tY_{i,t}代表个体iitt时刻的结果变量 (病人健康), 如果个体ii在基期未接受处置且下一期也未接受, 此时Yi,t(0)Y_{i,t}(0)表示个体iitt时刻的 潜在结果 (potential outcome) 如果个体ii在基期未接受处置而在下一期接受, 则此时个体iitt时刻的潜在结果为Yi,t(1)Y_{i,t}(1). 为了简化符号. 特别地, 当只有两期数据时, 下标tt可以省略, Yi,2(1)Y_{i,2}(1)Yi,2(0)Y_{i,2}(0)分别简化为Yi(1)Y_i(1)Yi(0)Y_i(0).

下面我们只考虑两期数据的情形. 对于个体ii, 处置DD​对她的 处置效应 (treatment effect)1

Δi=Yi(1)Yi(0)\Delta_{i}=Y_{i}(1)-Y_{i}(0)

值得注意的是, 由于我们无法同时观测到Yi(0)Y_{i}(0)Yi(1)Y_{i}(1), 故而Δi\Delta_{i}是完全不可知的. 事实上, 我们只能观测到

Yi=DiYi(1)+(1Di)Yi(0)Y_{i}=D_iY_{i}(1)+(1-D_i)Y_{i}(0)

然而, 我们或许仍能用 随机控制实验 (Randomized Controlled Trial, RCT) 来获取Δi\Delta_{i}​​的某些性质. 在某些情况下, 大型的随机实验可以让我们得到 平均处置效应 (Average Treatment Effect, ATE)

τ=E[Yi(1)Yi(0)]\begin{equation} \tau=\mathbb{E}[Y_{i}(1)-Y_{i}(0)] \tag{C.1} \end{equation}

这里的τ\tau指的是Δi\Delta_{i}在总体上的平均值. 继续之前的例子, 个体服药效果Δi\Delta_{i}等于个体iitt时刻服药后的健康程度减去个体iitt时刻没有服药的健康程度, 因为她不能既服药又不服药, 所以Δi\Delta_{i}无法观测, 但是在一定假设下, RCT使得我们能够得到个体服药效果在总体中的平均值τ\tau​.

什么样的假设? 只需要求i.i.d.样本{Yi,Di}i=1n\{Y_{i},D_i\}_{i=1}^n​满足 个体稳定处置效应假设 (SUTVA) 以及 随机处置指派 (random treatment assignment), 也即

Yi=Yi(Di){Yi(0),Yi(1)}Di\begin{align*} Y_{i}&=Y_{i}(D_i) \\ \{Y_{i}(0),Y_{i}(1)\} &\perp D_i \end{align*}

其中SUTVA表明任何个体的潜在结果不随其它个体是否接受处置而变化, 并且每一个体所接受的处置水平是唯一的, 因此处置所导致的潜在结果也是唯一 (该假设无法验证是否成立); 随机处置指派表明处置独立于潜在结果, 是完全随机化的.

基于SUTVA和随机处置指派, ATE可以被识别为

τ=E[YiDi=1]E[YiDi=0]\begin{equation} \tau^\ast=\mathbb{E}[Y_i|D_i=1]-\mathbb{E}[Y_i|D_i=0] \tag{C.2} \end{equation}

这是因为可以将τ\tau^\ast分解为

τ=τ+bias\tau^\ast=\tau+\text{bias}

其中

bias=(E[Yi(1)Di=1]E[Yi(1)Di=0])P[Di=0]+(E[Yi(0)Di=1]E[Yi(0)Di=0])P[Di=1]\begin{align*} \text{bias}&=(\mathbb{E}[Y_i(1)|D_i=1]-\mathbb{E}[Y_i(1)|D_i=0])\mathbb{P}[D_i=0] \\ &\quad +(\mathbb{E}[Y_i(0)|D_i=1]-\mathbb{E}[Y_i(0)|D_i=0])\mathbb{P}[D_i=1] \end{align*}

根据随机处置指派可知bias=0\text{bias}=0, 从而τ=τ\tau^\ast=\tau. 根据式(C.2) 我们可以得到 均值差 (Difference-in-Means, DM) 估计量

τ^DM=n11Di=1Yin01Di=0Yi\hat{\tau}_{\text{DM}}=n_1^{-1}\sum_{D_i=1}Y_i-n_0^{-1}\sum_{D_i=0}Y_i

这里的nd={i:Di=d}n_d=|\{i:D_i=d\}|. DM估计量具有无偏性

E[τ^DM]=E[Yi(1)]E[Yi(0)]=τ\mathbb{E}[\hat{\tau}_\text{DM}]=\mathbb{E}[Y_i(1)]-\mathbb{E}[Y_i(0)]=\tau

进一步, 在标准的CLT条件下可以证明

n(τ^DMτ)dN(0,VDM)\sqrt{n}(\hat{\tau}_{\text{DM}}-\tau)\xrightarrow{d}\mathcal{N}(0,V_{\text{DM}})

其中VDM=var[Yi(0)]/P[Di=0]+var[Yi(1)]/P[Di=1]V_\text{DM}=\mathrm{var}[Y_i(0)]/\mathbb{P}[D_i=0]+\mathrm{var}[Y_i(1)]/\mathbb{P}[D_i=1], 它的一致估计量为

V^DM=1n11Di=1(Yi1n1Di=1Yi)2+1n01Di=0(Yi1n0Di=0Yi)2\hat{V}_\mathrm{DM}=\frac{1}{n_1-1}\sum_{D_i=1}\left(Y_i-\frac{1}{n_1}\sum_{D_i=1}Y_i\right)^2+\frac{1}{n_0-1}\sum_{D_i=0}\left(Y_i-\frac{1}{n_0}\sum_{D_i=0}Y_i\right)^2

线性回归模型与RCT的关系#

初级的计量经济学早已讲授过线性回归模型,这里将介绍它与RCT的关系. 仍考虑两期数据, 假设 数据生成过程(DGP)

Yi(d)=c(d)+Xiβ(d)+ei(d)\begin{equation} Y_i(d)=c_{(d)}+X_i'\beta_{(d)}+e_i(d) \tag{C.3} \end{equation}

并且满足E[ei(d)Xi]=0\mathbb{E}[e_i(d)|X_i]=0var[ei(d)Xi]=σ2\mathrm{var}[e_i(d)|X_i]=\sigma^2. 简单起见, 我们还假设

P[Di=0]=P[Di=1]=12\begin{equation} \mathbb{P}[D_i=0]=\mathbb{P}[D_i=1]=\frac{1}{2} \tag{C.4} \end{equation}

此时

VDM=var[Yi(0)]/P[Di=0]+var[Yi(1)]/P[Di=1]=4σ2+β(0)+β(1)A2+β(0)β(1)A2\begin{align*} V_\text{DM}&=\mathrm{var}[Y_i(0)]/\mathbb{P}[D_i=0]+\mathrm{var}[Y_i(1)]/\mathbb{P}[D_i=1] \\ &=4\sigma^2+||\beta_{(0)}+\beta_{(1)}||_A^2+||\beta_{(0)}-\beta_{(1)}||_A^2 \end{align*}

最后, 我们还可以不失一般性地假设E[Xi]=0\mathbb{E}[X_i]=0. 另一方面, 根据DGP可知ATE可以表示为

τ=E[Yi(1)Yi(0)]=c(1)c(0)+E[Xi][β(1)β(0)]\tau=\mathbb{E}[Y_i(1)-Y_i(0)]=c_{(1)}-c_{(0)}+\mathbb{E}[X_i]\cdot[\beta_{(1)}-\beta_{(0)}]

自然而然, 可以得到τ\tau的OLS估计量

τ^OLS=c^(1)c^(0)+Xˉ[β^(1)β^(0)]\hat{\tau}_\text{OLS}=\hat{c}_{(1)}-\hat{c}_{(0)}+\bar{X}'[\hat{\beta}_{(1)}-\hat{\beta}_{(0)}]

这里的Xˉ=n1i=1nXi\bar{X}=n^{-1}\sum_{i=1}^{n}X_i. 进一步可以证明

n(τ^OLSτ)dN(0,VOLS)\sqrt{n}(\hat{\tau}_\text{OLS}-\tau)\xrightarrow{d} \mathcal{N}(0,V_\text{OLS})

并且VDM=VOLS+β(0)+β(1)A2V_\text{DM}=V_\text{OLS}+||\beta_{(0)}+\beta_{(1)}||_A^2​, 可见使用OLS减少了线性DGP情况下的渐近误差. 这一结论毫不令人惊讶, 因为我们已经假设了DGP是线性的.

进一步, 对于任意DGP

Yi(d)=μd(Xi)+ei(d)Y_i(d)=\mu_{d}(X_i)+e_i(d)

仍然假定E[ei(d)Xi]=0\mathbb{E}[e_i(d)|X_i]=0, var[ei(d)Xi]=σ2\mathrm{var}[e_i(d)|X_i]=\sigma^2, P[Di=1]=1/2\mathbb{P}[D_i=1]=1/2. 易知

n(τ^DMτ)dN(0,VDM2)\sqrt{n}(\hat{\tau}_\text{DM}-\tau)\xrightarrow{d} \mathcal{N}(0,V_\text{DM2})

其中其中

VDM2=4σ2+2var[μ0(Xi)]+2var[μ1(Xi)]V_\text{DM2}=4\sigma^2+2\mathrm{var}[\mu_{0}(X_i)]+2\mathrm{var}[\mu_{1}(X_i)]

另一方面, 考虑如下OLS估计量

τ^OLS2=n1i=1n[μ^1(Xi)μ^0(Xi)]μ^d(Xi)=c^(d)+Xiβ^(d)\begin{align*} \hat{\tau}_\text{OLS2}&=n^{-1}\sum_{i=1}^{n}\left[\hat{\mu}_{1}(X_i)-\hat{\mu}_{0}(X_i)\right] \\ \hat{\mu}_{d}(X_i)&=\hat{c}_{(d)}+X_i'\hat{\beta}_{(d)} \end{align*}

可以证明

n(τ^OLS2τ)dN(0,VOLS2)\sqrt{n}(\hat{\tau}_\text{OLS2}-\tau)\xrightarrow{d} \mathcal{N}(0,V_\text{OLS2})

并且VDM2=VOLS2+β(0)+β(1)A2V_\text{DM2}=V_\text{OLS2}+||\beta^\ast_{(0)}+\beta^\ast_{(1)}||^2_A, 这里的β(d)\beta^\ast_{(d)}满足

[c(d),β(d)]=argminc,βE[(Yi(d)Xiβc)2][c^\ast_{(d)},\beta^\ast_{(d)}]=\arg\min_{c,\beta}\mathbb{E}[(Y_i(d)-X_i'\beta-c)^2]

换言之, 无论μd(x)\mu_d(x)是否是线性函数, OLS几乎总能减少DM的渐近方差! 这也解释了为何在RCT中使用线性回归模型来推断ATE: 在SUTVA和随机处置指派下, RCT可以正确识别ATE, 并且OLS和DM均能得到ATE的一致估计量,但前者是渐近有效的.

Footnotes#

  1. 这里暗含了Δi\Delta_{i}是存在的, 对个体ii的处置或不处置仅影响自己, 不会影响到其他个体. 这个隐含的假设在医学实验中是可行的, 但是在社会科学或经济学中似乎不太合理.

随机控制实验
https://shikiecon.com/posts/rct/
作者
Shiki
发布于
2024-05-16
许可协议
CC BY-NC-SA 4.0