本页目录

数据不够时假说检验也会给你假确信

假说检验听起来像是一种客观、系统、不会出错的方法。把解释摆出来，逐个过数据，排除站不住的，保留能组合的。过程严谨，结论可靠。

但这个方法本身也有失效条件。

多因素交织的慢性问题是最佳场景

假说检验法在下面这类问题里最有力：

停滞已经持续了较长时间（三年以上），积累了足够多的数据。公共讨论中已经出现了多种竞争性解释。单一框架分析明显不够用——只能解释一部分事实。需要区分主因、放大器和结果。

日本的长期停滞就是这种问题的典型案例。数据丰富，解释众多，时间跨度足够长。假说检验在这里能充分发挥作用。

类似的场景还有：欧元区的增长乏力、某个行业的长期萎缩、某种公共政策的反复失效。共同特征是多因素、慢性化、有足够的数据积累。

当危机由单一明确事件触发——金融机构突然倒闭、大规模自然灾害、疫情导致的经济停摆——假说检验法的价值就很有限。

原因很简单：你不需要检验六种假说来解释"雷曼兄弟为什么倒了"或"新冠为什么导致经济停摆"。触发原因是已知的。

在单一冲击型危机里硬套假说检验，会导致过度分析。你会找到很多"因素"，画出复杂的因果图，但最终的结论还是那个你已经知道的单一触发器。过程感很强，信息增量很小。

识别信号：如果把最明显的那个触发因素去掉，其他因素的解释力就会大幅下降，说明问题是单因素主导的。这时候假说检验法不是不能用，而是收益很低。

但有一个重要的例外：冲击发生后的持续影响可能是多因素的。雷曼倒闭的触发原因是单一的，但为什么美国经济的恢复比预期慢——这就又变成了一个多因素问题，假说检验法重新有用。

假说检验法最危险的误用，是把"走完了检验流程"等同于"结论一定可靠"。

三种情况下，走完流程也会得出错误结论：

数据不够。假说检验的可靠性依赖数据质量和数据覆盖面。如果某个关键变量的数据不可得——比如企业的真实资产负债表在早期不透明——你对那个假说的"排除"就是在数据盲区里做的判断。排除得很自信，底下是空的。

候选假说不够全。如果正确的解释根本不在你的候选列表里，再精细的检验也不会让你找到它。穷尽候选假说是方法的前提，但"穷尽"本身就是一个无法完全确认的状态。你永远不知道自己是不是漏掉了某种解释。

确认偏差。虽然排除法在设计上抵抗确认偏差，但执行中仍然会出现偏差。你对某些假说的检验可能更严格，对另一些更宽容。你对"支持证据"和"反对证据"的分类可能受你的先入之见影响。

应对方式不是放弃假说检验，而是在结论旁边标清边界：数据覆盖了哪些方面、哪些方面数据不足、候选假说列表基于什么来源、有没有可能遗漏了某种解释。

假说之间存在共线性——也就是说，多个假说在解释同一组数据——是假说检验中最常遇到的技术障碍。

判断标准：如果所有假说的解释力加总明显超过100%，共线性就是严重的。

共线性严重时继续检验的后果是重复计算。你以为你检验了六种独立原因，实际上你可能只检验了两三种原因的不同表述。

遇到共线性超标，正确的做法是退一步：把高度相关的假说合并成假说群组，然后在群组层面做检验。

比如：银行坏账假说、资产负债表衰退假说和信贷收缩假说，在日本的语境里可能指向同一类根源——金融体系功能受损。把它们合并成一个群组，再和需求假说群组、结构假说群组做比较，分析就会更清晰。

还有一个更根本的停止信号。当你发现自己在调整假说的定义来适应数据，而不是用数据来检验假说——停下来。你已经从检验模式滑进了辩护模式。

检验的目标是缩小不确定性，不是消除不确定性。当你能说出"这些因素更可能是主因，那些因素更可能是放大器，还有这些地方我不确定"——检验就算成功了。不确定性本身不是失败。假装没有不确定性才是。

回顾上面四种失效条件，它们有一条共同的底层逻辑：假说检验法的可靠性和你输入的质量正相关。

数据质量高、候选假说穷尽、分析者对自身偏好保持觉察——三者同时满足时，假说检验法是最可靠的复杂问题分析工具。三者中任何一个明显不足，结论的置信度就要打折扣。

实际操作中，最有效的自检是在得出结论后问自己一句：如果有人用同一组数据和同一套方法，但带着和我相反的先入之见来做分析，他会得出不同结论吗？如果答案是"不会"，你的分析可能够硬。如果答案是"很可能会"，你需要重新审视自己在哪些环节做了倾向性判断。