八句话把'有数据'和'有因果'拆开

八条因果推断核心提醒,覆盖选择偏误、反向因果、混淆变量和方法选择,每条对应一个具体判断场景

本页目录

八句话把"有数据"和"有因果"拆开

因果判断的底层提醒

看到两件事同时出现,人的默认反应是"A导致了B"——而不是"A和B碰巧一起变动"。

所有因果推断错误的起点都在这里。人脑天生把共变当因果。意识到这个默认反应,才能在每次遇到数据结论时主动暂停。

反事实——"如果没有这个干预,本来会发生什么"——才是因果推断的起点,不是"干预之后发生了什么"。

因果效应不是"干预之后发生了什么",而是"和没有干预的情况相比,差了多少"。但反事实永远无法直接观测,所有方法都是在想办法逼近它。

被比较的两组人如果本来就不一样,比较结果反映的是人群差异,不是干预效果。

选择偏误是最常见的假因果来源。"读大学的人收入更高"可能只是因为能读大学的人家庭条件本来就好。遇到任何分组比较,先问"两组人一开始是不是就不同"。

方法层的核心逻辑

随机分组的价值不在公平,在于把看不见的干扰因素平均分到两边。

随机对照实验之所以是因果推断金标准,是因为随机化能让所有已知和未知的混淆变量在两组之间大致相等。这样观察到的差异才能归因于干预本身。

A和B同时变动时,先问:是不是有个没注意到的C在背后同时推动了它们。

冰淇淋销量和溺水人数正相关——推动两者的是夏天的高温。混淆变量是假因果的主要来源之一。每次看到相关性,画一张因果图,标出所有可能的第三方变量。

因果方向不是数据能自动告诉你的。A导致B还是B导致A,必须靠方法和逻辑去判断。

警察多的城市犯罪率高——不是警察导致犯罪,是犯罪多的地方部署更多警察。反向因果在政策讨论里特别常见,比正向因果更有迷惑性。

方法选择和证据强度

不能做实验不等于不能判断因果。现实中碰巧发生的"准随机"事件就是自然送来的实验机会。

很多因果问题不允许做随机实验——不能随机决定谁上大学谁不上。但义务教育法的变化、彩票中签、自然灾害这类事件碰巧制造了可以利用的"准随机"分组。

一个结论有多可信,取决于它排除了多少种替代解释。

因果推断的核心不是证明A导致B,而是排除A不导致B的可能性。排除得越多,结论越强。只控制了一两个变量的研究,通常不如控制了所有主要混淆的研究——哪怕前者样本量更大。

场景映射

你遇到的情况 先调出哪句
看到"研究发现A和B相关" 先问有没有C在背后同时推动
看到分组比较的数据 先问两组人本来是不是一样
看到"做了X效果更好" 先问能不能排除反向因果
想知道一个政策有没有用 先想有没有自然实验或断点可利用
被一个大样本研究说服 先看它排除了多少种替代解释

同分类继续看