第三章 工具变量
IV利用部分/不完整的随机匹配
3.1 特许学校之谜
特许学校:KIPP抽签项目
排他性约束(exclusion restriction):中签产生的唯一差别在于就读KIPP的概率
检查平衡性:基线标准化成绩
IV三方面要求:
(1) 第一阶段(First Stage)存在,即Z对X产生因果影响
(2) 独立性假设(Independence Assumption),IV需随机分配/和随机分配一样好
(3) 排他性约束(Exclusion Restriction):Z只能通过X对Y产生影响
检验三方面:
(1) 考察Z和X之间的相关性,可以检验第一阶段
(2) 考察Z = 0和1时协变量的平衡性,可以检验独立性假设
(3) 排他性约束不易检验,但意味着第一阶段估计值很小的一个样本只能产生一个较小的简约式估计值
该例中:Z:录取(抽中签),X:入学结果(就读KIPP),Y:考试成绩
因此,就读KIPP对成绩的因果效应
结果:就读KIPP提高了数学成绩半个标准差,效应显著
第一阶段(First Stage):
简约式(Reduced Form):
局部平均处理效应(LATE):
LATE为简约式与第一阶段估计值之比
四类人:always taker, never taker, complier, defier
在此总结一下四种平均处理效应(treatment effects averaged):
ToT (Treatment of the Treated): always taker + complier
ATE (Average Treatment Effect): always taker + never taker + complier
LATE (Local Average Treatment Effect): complier
ITT (Intention to Treat): never taker + complier
无defier假设:单调性(monotonicity),即IV只从一个方向改变受影响的申请人
因果链条:Z → X → Y
由于LATE为处理对complier所产生的平均因果效应,因而可写为:
除了LATE,还可以有ToT:
LATE和ToT往往不一致
3.2 家暴狂徒
MDVE家暴实验:柔性处理(警告、隔离)和非柔性处理(逮捕)
Z:随机分配柔性处理
D:执行柔性处理
Y:6个月内,是否会在同一地点再次发生家暴
第一阶段:
简约式:
上式亦为意向处理效应(ITT),即对Complier + Never Taker的平均处理效应
LATE:简约式(ITT)与第一阶段(遵守实验)的比值
LATE = 0.114 / 0.786 = 0.145,结果显著
该例中,不存在Always Taker,因此LATE = ToT,即:
3.3 人口爆炸
1. ALS研究
探究问题:家庭规模是否负面地影响教育水平(ALS研究),两个实验:
【双胞胎实验】
Z:第二胎为双胞胎
X:家庭规模
Y:头胎成年人的教育水平
结果:不显著
问题:生育多胞胎的母亲往往年纪较大,且某些种族和族裔群体的妇女更容易生育多胞胎,因而Z可能不满足独立性假设
【性别实验】
Z:前两个孩子性别相同时 = 1,性别相反时 = 0
X:家庭规模
Y:头胎成年人的教育水平
好处:受同性别子女影响的家庭数量远大于受双胞胎影响的家庭数量,且Z与包括生育年龄和种族在内的母亲特征无关
结果:不显著
无法直接检验排他性约束,但可以提供一些证据
要担心简约式显著不为零,但相应的第一阶段不存在的情况,因为:这意味着除了X(家庭规模)之外,还有另外一些作用渠道将Z和Y联系起来,从而违背排他性约束
2. 2SLS
使用2SLS的好处:(1)可以有效使用多个IV(2)可控制协变量,减轻因IV不完美而产生的OVB
2SLS通过两个阶段算出:
第一阶段:将X分解为两个部分。一个与u相关且引起问题;一个与u无关。
用Z去OLS回归X,其中截距 + 系数Z为与u无关的一项,并计算X的OLS预测值
第二阶段:用预测(拟合)值X去OLS回归Y,得到LATE估计量
例中,考虑工具变量Z(双胞胎)和控制变量A:
第一阶段拟合值:
因而第二阶段为:
考虑工具变量Z(双胞胎)和W(前两胎性别),以及控制变量A和B:
第一阶段为:
简约式为:
则第二阶段为:
从而找到需要的LATE估计值
汇总IV与单个IV所得到的估计值相差不大,但SE要小很多
附录
当仅有一个IV且不存在协变量时,可以用第一阶段和简约式的回归系数表示LATE:
即,LATE可表示为协方差之比(IV公式)
若用2SLS,则第二阶段为:
因而可以证明2SLS与IV公式等价(系数相等),即:
即使增加协变量,2SLS与IV公式同样等价,即:
2SLS的SE和bias详见附录(p. 98)