本页目录

因果推断方法不灵的五种情况

因果推断方法不是万能钥匙。每种方法都建立在一组核心假设之上。假设成立，方法有力；假设被违反，结论可能比没有方法时更危险——因为它带着"科学方法验证过"的光环。

下面五种情况是最常见的失效场景。它们不是理论警告，而是实际研究和日常数据分析中反复出现的坑。

核心假设被违反时，方法越精致结论越假

每种方法的要害不在技术细节，在核心假设。

工具变量要求工具"干净"——Z只通过A影响B，不走旁路。但现实中几乎没有完美的工具。地理距离用来估计教育回报，但住址可能和当地经济水平有关，而经济水平直接影响收入。旁路一旦存在，整个估计就偏了。

断点回归要求临界点附近没有操控。但如果考生可以通过补考提分、或者政策执行者有弹性裁量权，临界点两侧的人就不再是"准随机"分组。

双重差分要求两组在干预前的趋势平行。但如果一个州的经济早在最低工资调整前就已经比另一个州走弱，用两者的差来估计政策效果，就把经济分化算成了政策效应。

方法越复杂，核心假设越容易被忽略。一篇论文用了精致的计量手段，不代表它的核心假设成立。

再好的因果推断方法也处理不了坏数据。

样本太小时，随机分组无法保证两组人在各种特征上大致相等。100人的随机对照实验，分组后两组年龄、性别、基础条件可能仍然差异很大。

数据测量不准时——比如自我报告的运动时间、估算的收入水平——误差本身就会制造假的相关性或掩盖真的因果关系。

缺失数据如果不是随机缺失（比如病情严重的人更容易退出临床试验），幸存下来的数据就不再能代表整体。

判断数据够不够用，有时比选方法更重要。

三种常见的方法误用：

该用断点的用了双重差分。 存在一条政策临界线，但研究者没有利用它，而是比较了政策前后的总体变化。这样做的问题是：政策前后同时发生的其他变化全被混进去了。

该用工具变量的直接做了回归。 收入和教育之间存在双向因果和大量混淆，直接回归出来的系数没有因果含义。但因为回归结果"显著"，就被当成了因果证据。

找不到好方法就硬套一个。 为了"有方法"而勉强选一个不满足条件的方法，结论比直接承认"不知道"更有害——因为它让错误结论获得了方法背书。

判断标准：方法是否满足核心假设，比方法本身是否高级重要得多。

一个研究在特定场景下做得非常干净——随机分组完美、样本量够大、核心假设都满足。但结论能推广到别的场景吗？

印度某邦的教育实验结果，不一定适用于中国城市。针对20多岁年轻人的职业培训效果，不一定适用于40多岁的中年人。某个互联网产品的A/B测试结论，换一个用户群体可能完全不同。

这是外部效度问题。内部做得越干净的研究，往往条件越特殊，推广性反而越弱。

遇到一个因果结论时，除了问"方法对不对"，还要问"这个场景和我面对的场景有多相似"。

出现以下任何一种情况，已有的因果结论就不该直接用来做决策：

核心假设无法验证，也无法辩护。 用了工具变量但说不清工具为什么干净。用了双重差分但拿不出平行趋势的证据。

同一问题不同研究结论相反。 同样研究警察对犯罪的影响，不同工具变量给出了不同方向的结论。这说明至少有一个研究的核心假设有问题。

结论高度依赖分析方式。 换一种变量定义、换一个时间窗口、换一种模型设定，结论就翻转。这意味着因果效应不稳健。

数据条件明显不满足但研究者没讨论。 样本量只有几十个、数据缺失严重、测量方式粗糙——但论文里对这些限制只字不提。

碰到这些信号，正确的反应不是"换一个方法"，而是先承认"当前证据不足以支撑因果结论"。能说出"不知道"，有时比勉强给一个答案更有价值。