本页目录
数据不够时假说检验也会给你假确信
假说检验听起来像是一种客观、系统、不会出错的方法。把解释摆出来,逐个过数据,排除站不住的,保留能组合的。过程严谨,结论可靠。
但这个方法本身也有失效条件。
多因素交织的慢性问题是最佳场景
假说检验法在下面这类问题里最有力:
停滞已经持续了较长时间(三年以上),积累了足够多的数据。公共讨论中已经出现了多种竞争性解释。单一框架分析明显不够用——只能解释一部分事实。需要区分主因、放大器和结果。
日本的长期停滞就是这种问题的典型案例。数据丰富,解释众多,时间跨度足够长。假说检验在这里能充分发挥作用。
类似的场景还有:欧元区的增长乏力、某个行业的长期萎缩、某种公共政策的反复失效。共同特征是多因素、慢性化、有足够的数据积累。
单一冲击型危机不要套这个方法
当危机由单一明确事件触发——金融机构突然倒闭、大规模自然灾害、疫情导致的经济停摆——假说检验法的价值就很有限。
原因很简单:你不需要检验六种假说来解释"雷曼兄弟为什么倒了"或"新冠为什么导致经济停摆"。触发原因是已知的。
在单一冲击型危机里硬套假说检验,会导致过度分析。你会找到很多"因素",画出复杂的因果图,但最终的结论还是那个你已经知道的单一触发器。过程感很强,信息增量很小。
识别信号:如果把最明显的那个触发因素去掉,其他因素的解释力就会大幅下降,说明问题是单因素主导的。这时候假说检验法不是不能用,而是收益很低。
但有一个重要的例外:冲击发生后的持续影响可能是多因素的。雷曼倒闭的触发原因是单一的,但为什么美国经济的恢复比预期慢——这就又变成了一个多因素问题,假说检验法重新有用。
"我检验了所有假说所以结论一定对"——最常见的误用
假说检验法最危险的误用,是把"走完了检验流程"等同于"结论一定可靠"。
三种情况下,走完流程也会得出错误结论:
数据不够。假说检验的可靠性依赖数据质量和数据覆盖面。如果某个关键变量的数据不可得——比如企业的真实资产负债表在早期不透明——你对那个假说的"排除"就是在数据盲区里做的判断。排除得很自信,底下是空的。
候选假说不够全。如果正确的解释根本不在你的候选列表里,再精细的检验也不会让你找到它。穷尽候选假说是方法的前提,但"穷尽"本身就是一个无法完全确认的状态。你永远不知道自己是不是漏掉了某种解释。
确认偏差。虽然排除法在设计上抵抗确认偏差,但执行中仍然会出现偏差。你对某些假说的检验可能更严格,对另一些更宽容。你对"支持证据"和"反对证据"的分类可能受你的先入之见影响。
应对方式不是放弃假说检验,而是在结论旁边标清边界:数据覆盖了哪些方面、哪些方面数据不足、候选假说列表基于什么来源、有没有可能遗漏了某种解释。
共线性超标时该停下来
假说之间存在共线性——也就是说,多个假说在解释同一组数据——是假说检验中最常遇到的技术障碍。
判断标准:如果所有假说的解释力加总明显超过100%,共线性就是严重的。
共线性严重时继续检验的后果是重复计算。你以为你检验了六种独立原因,实际上你可能只检验了两三种原因的不同表述。
遇到共线性超标,正确的做法是退一步:把高度相关的假说合并成假说群组,然后在群组层面做检验。
比如:银行坏账假说、资产负债表衰退假说和信贷收缩假说,在日本的语境里可能指向同一类根源——金融体系功能受损。把它们合并成一个群组,再和需求假说群组、结构假说群组做比较,分析就会更清晰。
还有一个更根本的停止信号。当你发现自己在调整假说的定义来适应数据,而不是用数据来检验假说——停下来。你已经从检验模式滑进了辩护模式。
检验的目标是缩小不确定性,不是消除不确定性。当你能说出"这些因素更可能是主因,那些因素更可能是放大器,还有这些地方我不确定"——检验就算成功了。不确定性本身不是失败。假装没有不确定性才是。
一条横贯所有场景的判断线
回顾上面四种失效条件,它们有一条共同的底层逻辑:假说检验法的可靠性和你输入的质量正相关。
数据质量高、候选假说穷尽、分析者对自身偏好保持觉察——三者同时满足时,假说检验法是最可靠的复杂问题分析工具。三者中任何一个明显不足,结论的置信度就要打折扣。
实际操作中,最有效的自检是在得出结论后问自己一句:如果有人用同一组数据和同一套方法,但带着和我相反的先入之见来做分析,他会得出不同结论吗?如果答案是"不会",你的分析可能够硬。如果答案是"很可能会",你需要重新审视自己在哪些环节做了倾向性判断。