本页目录
五个日常场景里藏着的假因果
吃早餐的孩子成绩好——但早餐不是原因
学校的数据显示:按时吃早餐的学生平均成绩比不吃的高15分。校长据此推行早餐计划。
问题在于:按时吃早餐的孩子背后通常有更稳定的家庭。父母有时间做早餐的家庭,往往也更关注学业、作息更规律、课外辅导更充分。
成绩差异的来源是家庭环境。"吃早餐"和"成绩好"同时出现,是因为背后有一个共同推手——家庭稳定性。
这是混淆变量:一个你没看到的C同时影响了A和B。
不拆开它:校长的早餐计划可能花了预算、改了作息,但对成绩没有实际效果。把钱花在课后辅导上,可能更有效。
调用信号:看到"做了X的人,Y指标更好"——先问做X的人和不做X的人是不是本来就不同。
警察越多的城市犯罪越高——因果方向反了
直接比较城市数据:警察数量越多的城市,犯罪率往往越高。
字面理解是"增加警察会增加犯罪"。但真实因果链恰好相反:犯罪率高的城市才会部署更多警察。是犯罪推动了警力配置。
这是反向因果。数据显示A和B相关,但方向和直觉猜的相反。
经济学家用选举周期做工具变量来拆开它——选举年份市长倾向于增加警力,而选举本身不直接影响犯罪行为。通过这个只影响警察数量、不直接影响犯罪的外部变量,才分离出"增加警察"对犯罪的真实效果。
结论翻转了:增加警察确实能降低犯罪率。
调用信号:两个变量同时变动时,先停下来想——到底是A推动B,还是B推动A。
读大学到底有没有让你更能赚钱
"大学毕业生平均收入比高中毕业生高60%"——这个数据经常用来论证教育的经济回报。
但能读大学的人,本来就在家庭资源、学习能力、社会关系上占优势。即使不读大学,这些人的收入大概率也高于只读到高中的人。60%的差距里,有多少是"大学教育"带来的?有多少是"本来就会高"的部分?
这里混合了选择偏误和混淆变量。
研究者利用地理距离做工具变量。住得离大学近的人更可能上大学,而住址和个人能力没有直接关系。用这个变量分离出教育的真实回报——远低于60%,但确实存在。
不拆开这个偏误:教育政策可能高估大学扩招的经济效果,或低估职业培训的替代价值。
调用信号:看到两组人的结果差异时,先问差异是干预带来的,还是两组人本来就不同。
广告投完销售涨了——广告可能是果不是因
一家公司发现:投放电视广告后两周内,销售额上涨了20%。市场部据此申请翻倍预算。
但广告通常投在旺季、新品上市期或促销周。销售额上涨可能是季节效应。广告只是碰巧投在了销量本来就会涨的时间段。
不是广告导致了销售,而是"预期销售会涨"导致了广告投放。这是反向因果的一个变体。
双重差分可以处理这类问题。找到一个投了广告的市场和一个没投的市场,比较两者在广告前后的变化差异。如果投了广告的市场比没投的多涨了15%,这15%才更接近广告的真实效果。
调用信号:看到"干预之后指标变好了"——先问指标是不是本来就在变好。
医疗支出越高的地区健康越差——花钱的人本来就更病
美国各州数据显示:人均医疗支出越高的州,居民健康指标反而越差。
字面结论是"花钱看病越多,健康越差"。但医疗支出高的地区,往往是老龄化严重、慢性病比例高的地方。这些地区的人更需要医疗,所以花得更多。花费高是健康差的结果。
这同时涉及选择偏误和反向因果。
断点回归能拆开它。美国Medicare的65岁分界线制造了一个天然临界点:64岁和66岁的人健康状况几乎相同,但66岁的人有Medicare覆盖、医疗支出显著增加。
比较临界点两侧人群的健康变化,就能更准确地估计医疗支出的真实效果——不是用"全国各州"这种被无数混淆变量污染的数据来比。
调用信号:看到跨地区或跨群体比较时,先找有没有政策临界点可以利用。