本页目录
五种工具逼近同一个不可观测的答案
因果推断的核心问题不复杂:A到底有没有导致B?
但回答这个问题有一个根本困难。你无法同时观测"做了A的情况"和"没做A的情况"。一个人要么上了大学,要么没上,不可能两者同时发生。
"如果没有A,B会怎样"——这个反事实是因果效应的定义,但它永远不可直接观测。
所有五种方法都在做同一件事:用不同的数据条件和研究设计,尽可能逼近那个观测不到的反事实。
随机分组消除一切看不见的干扰
随机对照实验是因果推断的基准方法。
把人随机分成两组,一组接受干预,一组不接受。随机化保证两组人在所有已知和未知特征上大致相等。这样观察到的差异,就能归因于干预本身。
关键不是"公平"。关键是消除了你看不见的混淆变量——那些你没想到甚至不知道存在的差异。
适用条件:你能控制分组。临床试验、A/B测试、田野实验都属于这一类。
局限也很明确:很多因果问题不允许做实验。不能随机决定谁坐牢谁不坐、谁上大学谁不上。这时候需要其他方法。
自然实验——借现实中的准随机事件
有时候现实碰巧制造了"准随机"的分组机会。
越战时期的征兵抽签,随机决定了哪些年轻人去参军。义务教育年限的改革,让不同年份出生的人接受了不同长度的教育。这些不是研究者设计的实验,而是历史或政策碰巧产生的分组。
自然实验的逻辑和随机对照实验一样:两组人的差异来自准随机的外部事件,不是自我选择。
适用条件:存在一个外部冲击,这个冲击像随机分组一样不受个人选择影响。
困难在于发现。好的自然实验不是你能计划的,而是在历史数据里找到的。找到一个好的自然实验,往往比设计一个实验更需要创造力。
工具变量——用中间人绕过无法直接比较的困境
有些问题既不能做实验,也找不到自然实验。但如果能找到一个"工具变量",还是有机会识别因果。
工具变量的要求很苛刻。它必须同时满足两个条件:和"干预"有关,但和"结果"只通过"干预"这一条路径有关。
用地理距离估计教育回报就是一个例子。住得离大学近的人更可能上大学(和干预有关),但住址本身不直接影响收入(和结果只通过教育这条路有关)。
用数学语言说:工具变量Z影响A,A影响B,但Z不直接影响B。
适用条件:能找到满足上述两个条件的变量。这是最难满足的要求——工具是否"干净",经常是学术论文里争议最大的部分。
断点回归——利用规则临界点制造干净对比
很多政策有一条硬杠杠:分数线、年龄线、收入线。
刚好在线上和刚好在线下的人,除了是否被政策覆盖之外,其他特征几乎一样。比较临界点两侧的人,就像在做一次小型随机实验。
Medicare的65岁分界线就是一个经典断点。64岁半的人和65岁半的人健康状况几乎相同,但后者有医保覆盖、医疗支出显著增加。比较这两组人的健康变化,就能估计医疗支出的因果效应。
适用条件:存在一条政策或规则临界线,且临界点附近的人没有能力操控自己落在哪一侧。
如果人能操控——比如考生通过努力把分数提到分数线以上——临界点两侧的人就不再可比,方法失效。
双重差分——两层对比消除时间趋势
有时候你有"干预组"和"对照组",也有"干预前"和"干预后"的数据,但单看任何一层对比都不够干净。
双重差分的逻辑:先算干预组"前后变化",再算对照组"前后变化",两个变化之差才是干预的因果效应。
一个州提高了最低工资,另一个相邻州没提。两个州的就业水平都在变化——经济周期、季节因素、人口流动都在起作用。但如果你用"提高最低工资的州的变化"减去"没提的州的变化",这些共同趋势就被抵消了,剩下的差才更接近"提高最低工资"的真实效果。
适用条件:干预发生在特定时间和特定群体,能找到没被干预的对照组,且两组在干预前的变化趋势大致平行。
"平行趋势"是核心假设。如果两个州在最低工资调整之前就已经走上了不同的轨道,用它们的差来估计因果效应就不可靠。
选方法的依据是数据条件,不是方法偏好
五种方法不是五个并列选项,也不是越靠前越好。
选择取决于你手上有什么。能做实验就做实验。不能做实验,看有没有自然实验或工具变量。有政策临界点就用断点回归。有前后对照数据就用双重差分。
对多数非研究者来说,价值不在于自己去用这些方法,而在于拿到一个因果结论时能追问:它用了什么方法逼近反事实?这个方法的核心假设在当前场景下成不成立?
能问出这两个问题,就已经超过了绝大多数数据消费者。