第二章 回归
本章重点在于附录部分,尤其是CEF条件期望函数、回归解构、OVB公式推导,正文部分废话较多,不过读一读也无妨
2.1 双校记
Ceteris paribus:其他条件不变,避免选择偏误
解决:控制协变量的匹配(matching)估计
关键的概括性指标:学生提交申请和获得录取的学校分别具有的特征
大学匹配矩阵:
分为ABCD四组,组内具有相似的职业抱负和能力,因而每组内部的比较更具可比性
组C和D不含信息量,因为他们都属于处理组/控制组,无法估计私立大学教育的处理效应
对组A和B进行平均收入之差(组A为–5000,组B为30,000),接着简单平均/构造加权平均值,即(3/5 * –5000) + (2/5 * 30,000) = 9000
2.2 跑回归
回归:一种自动配对器
回归估计值:简化的匹配矩阵中,针对各类构造出的组别进行多种匹配比较后,计算出的加权平均值
OLS:最小化残差平方和,且对每个观测值赋予相同权重
其中,GROUP为Barron匹配的组别
自我显示模型:只包含SAT和申请的学校数量,得到的回归结果类似Barron匹配
考虑协同效应:在自我显示模型中用SAT分数替换私立大学虚拟变量P
结果表明:进入私立大学影响未来收入的效果不显著
2.3 遗漏变量
假设遗漏变量为虚拟变量A
长回归:
短回归:
OVB formula:
则OVB = 段回归系数 – 长回归系数 = {A和P之间的关系}×{A在长回归中产生的影响}
OVB为数学结果,与回归的因果解释无关
譬如,在私立学校一例中,设遗漏变量为FS(家庭规模),则:
第一项为FS和P之间的关系,用FS辅助回归P:
长回归为:
则OVB:
结果“稳健”:当模型包含一组核心控制变量之后,无论模型加入或剔除其他特定变量,得到的处理效应对此都不敏感
附录:回归理论
1. 条件期望函数CEF
给定Xi时,Yi的条件期望,即E[Yi | Xi]
很多感兴趣的CEF不止一个条件变量,当具有K个条件变量时,CEF为:
E[Yi | X1i,…, XKi]
其中,E[Yi | X1i = x1,…, XKi = xK]表示当K个条件变量取固定值时,Yi的总体平均值
在公私立学校一例中,假设工资对数的CEF为其他变量(SAT分数、父母工资、申请和录取大学的选拔性水平既定等)的线性函数,即:
若该CEF为线性,则回归系数恰等于该CEF回归的系数:
CEF回归可以写出按照组别进行的比较差异:
即(1)根据其他变量的取值,针对协变量的每个可能组合(2)按照进入私立大学(P = 1)和公立大学(P = 0)比较匹配的学生的平均收入(3)对每个组别得到的比较差异进行平均,从而得到一个总的平均值
回归的两个特点:
(a) 若CEF线性,则回归就能找到这个CEF函数
(b) 若CEF非线性,则回归能够找到对CEF的最佳线性拟合(线性模型拟合值和CEF之差最小化),即回归能够找到这个CEF函数的一个好的近似,接近按照协变量进行匹配,对每个组别中处理组-控制组差异进行平均后得到的结果
【特例:虚拟变量】
则:
当仅有一个虚拟变量时,CEF为线性:
CEF线性,所以回归可以完美拟合CEF,因而回归斜率系数必然为β,即虚拟变量取1和0时期望值之差
2. 二元回归与协方差
协方差的定义:
Cov(Xi, Yi) = E[(Xi – E[Xi])(Yi – E[Yi])]
三个重要性质:
(a) 一个变量与其自身的协方差为其方差,即Cov(Xi, Xi) = Var(Xi) = σX2
(b) 若E[Xi] = 0或E[Yi] = 0,则Cov(Xi, Yi) = E[Xi Yi]
证明:Cov(Xi, Yi) = E[Xi Yi] – E[Xi] E[Yi]
根据上式,当Xi与Yi相互独立,则Cov(Xi, Yi) = 0
(c) Xi, Yi构成的线性方程,即Wi = a + bXi,Zi = c + dYi,则Cov(Wi, Zi) = bd Cov(Xi, Yi)
在二元回归中,我们找最小化残差平方和的a和b,其中
则最小化RSS的解为:
注意到,当两个变量Xi, Yi不相关时,Cov(Xi, Yi) = 0,其斜率系数b为0,反之亦然
3. 拟合与残差
回归将因变量拆分成两部分:拟合值 + 残差:
回归残差与回归元X无关,即若用残差回归X,系数均为0
回归残差与拟合值无关(由于拟合值为回归元X的线性组合)
考虑回归的拟合值:
则残差为:
残差满足两个性质:
(1) 残差的样本均值和期望值为0
(2) 在总体与样本中都与所有回归元不相关,与相应的拟合值也不相关
即:
这两个性质等价于最小化残差平方和的一阶条件
4. 回归解构与OVB
在多元回归中,若存在X1i和X2i,其中X2i为控制变量,则X1i的系数为:
其中残差与回归:
残差与产生它的回归元无关;即,控制了X2i后,X1i的系数为只包含未能被X2i解释的那部分 X1i的二元回归中得到的系数
回归解构可以推广至多元,譬如存在K个回归元时,第k个回归元的系数:
其中,残差由模型中其他K – 1个协变量对Xki进行回归后得到
OVB公式推导:
推导运用的协方差性质:(1)变量线性组合的协方差(2)常数与任何变量的协方差 = 0(3)变量与自己的协方差 = 该变量的方差(4)残差与产生这个残差的回归元不相关
同理,可以推广至多个遗漏的控制变量
5. 对数变形
考虑:
由于P为唯一的虚拟变量,CEF为线性,即回归完美拟合CEF:
考虑为个体i构造变化,即当P = 0和1时:
则:
变形后:
当△%Y很小时,二者非常近似,因而告知近似百分比
6. 回归的标准误SE和置信区间
在第一章附录中,样本均值标准误:
类似地,二元回归中,斜率系数的SE为:
其中,σe是回归残差的标准差,σX是回归元X的标准差
两个方面:
(1) 残差的方差很大,意味着回归曲线的拟合程度不高
(2) 回归元X变动越大,随着σX的增加,有助于确立斜率,估计值更加精确
类似地,在多元回归模型中,若同方差,则:
当同方差假设不满足时,用稳健标准误RSE: