因果推断方法不灵的五种情况

因果推断五种方法的适用边界:什么条件下最有力、什么情况下会失效、出现哪些信号该停手

本页目录

因果推断方法不灵的五种情况

因果推断方法不是万能钥匙。每种方法都建立在一组核心假设之上。假设成立,方法有力;假设被违反,结论可能比没有方法时更危险——因为它带着"科学方法验证过"的光环。

下面五种情况是最常见的失效场景。它们不是理论警告,而是实际研究和日常数据分析中反复出现的坑。

核心假设被违反时,方法越精致结论越假

每种方法的要害不在技术细节,在核心假设。

工具变量要求工具"干净"——Z只通过A影响B,不走旁路。但现实中几乎没有完美的工具。地理距离用来估计教育回报,但住址可能和当地经济水平有关,而经济水平直接影响收入。旁路一旦存在,整个估计就偏了。

断点回归要求临界点附近没有操控。但如果考生可以通过补考提分、或者政策执行者有弹性裁量权,临界点两侧的人就不再是"准随机"分组。

双重差分要求两组在干预前的趋势平行。但如果一个州的经济早在最低工资调整前就已经比另一个州走弱,用两者的差来估计政策效果,就把经济分化算成了政策效应。

方法越复杂,核心假设越容易被忽略。一篇论文用了精致的计量手段,不代表它的核心假设成立。

样本太小或数据质量差,方法全部失效

再好的因果推断方法也处理不了坏数据。

样本太小时,随机分组无法保证两组人在各种特征上大致相等。100人的随机对照实验,分组后两组年龄、性别、基础条件可能仍然差异很大。

数据测量不准时——比如自我报告的运动时间、估算的收入水平——误差本身就会制造假的相关性或掩盖真的因果关系。

缺失数据如果不是随机缺失(比如病情严重的人更容易退出临床试验),幸存下来的数据就不再能代表整体。

判断数据够不够用,有时比选方法更重要。

方法选错比没有方法更危险

三种常见的方法误用:

该用断点的用了双重差分。 存在一条政策临界线,但研究者没有利用它,而是比较了政策前后的总体变化。这样做的问题是:政策前后同时发生的其他变化全被混进去了。

该用工具变量的直接做了回归。 收入和教育之间存在双向因果和大量混淆,直接回归出来的系数没有因果含义。但因为回归结果"显著",就被当成了因果证据。

找不到好方法就硬套一个。 为了"有方法"而勉强选一个不满足条件的方法,结论比直接承认"不知道"更有害——因为它让错误结论获得了方法背书。

判断标准:方法是否满足核心假设,比方法本身是否高级重要得多。

内部有效不等于外部可推广

一个研究在特定场景下做得非常干净——随机分组完美、样本量够大、核心假设都满足。但结论能推广到别的场景吗?

印度某邦的教育实验结果,不一定适用于中国城市。针对20多岁年轻人的职业培训效果,不一定适用于40多岁的中年人。某个互联网产品的A/B测试结论,换一个用户群体可能完全不同。

这是外部效度问题。内部做得越干净的研究,往往条件越特殊,推广性反而越弱。

遇到一个因果结论时,除了问"方法对不对",还要问"这个场景和我面对的场景有多相似"。

该停手的信号

出现以下任何一种情况,已有的因果结论就不该直接用来做决策:

核心假设无法验证,也无法辩护。 用了工具变量但说不清工具为什么干净。用了双重差分但拿不出平行趋势的证据。

同一问题不同研究结论相反。 同样研究警察对犯罪的影响,不同工具变量给出了不同方向的结论。这说明至少有一个研究的核心假设有问题。

结论高度依赖分析方式。 换一种变量定义、换一个时间窗口、换一种模型设定,结论就翻转。这意味着因果效应不稳健。

数据条件明显不满足但研究者没讨论。 样本量只有几十个、数据缺失严重、测量方式粗糙——但论文里对这些限制只字不提。

碰到这些信号,正确的反应不是"换一个方法",而是先承认"当前证据不足以支撑因果结论"。能说出"不知道",有时比勉强给一个答案更有价值。

同分类继续看