体检报告阳性,慌不慌
体检报告某项指标异常。医生说准确率 95%。第一反应是"坏了"。
95% 准确率指的是:如果你真有病,检测能检出的概率是 95%。反过来:如果你没病,误报概率 5%。假设一万人里只有一人得病——一万次检测会有约 500 次误报,但只有 1 次是真阳性。501 个"阳性"里,你是真患者的概率不到 0.2%。
恐慌让人直接从"准确率高"跳到"我有病"。中间被跳过的就是基准率——这种病本来有多稀少。
调用入口:任何时候拿到一个"高准确率"的判断结果——体检、安检、风控系统的预警——先问三个问题。这件事的基准发生率是多少?误报率是多少?在这个基准下,阳性到底意味着什么?
明星基金经理的第四年
某只基金连续三年跑赢市场 15 个百分点。财经媒体封它为"最稳的选择"。大量资金涌入。
第四年,它跑输了大盘。投资者觉得经理失手了。但更大的可能是回归均值在起作用。
任何极端表现——无论好坏——后续都倾向于向平均水平靠拢。三年超额收益里有多少是能力、多少是运气,你不知道。统计规律知道:极端值之后,回归几乎是确定的。"连续三年好"不能推出"第四年也好"。能推出的只是"第四年比前三年差一些的概率很大"。
调用入口:看到连续几次极端表现——员工绩效特别好、项目连续成功、某策略连续奏效——先别急着归因为能力。问一句:如果什么都不做,下一次大概率会怎样?
面试官凭直觉拍板
面试结束,你直觉判断候选人"一定行"。面试过上百人,自认对人的判断已经很准。
但追踪数据通常不支持这种自信。多数面试官对候选人未来表现的预测准确率,跟结构化评分比没有明显优势。问题不在直觉本身——快速直觉有时确实有效——问题在于从来没有人追踪过自己的命中率。没有校准数据,自信就是错觉。
一个简单的校准方法:每次面试后写下"这个人半年后的表现预测"并标上置信度。半年后回头比对。做十次之后,你对自己的面试直觉就有了基准线,而不只是模糊的"我觉得自己看人很准"。
调用入口:任何你自认"判断很准"的领域——选人、投资、预测市场——停下来问:我有没有系统追踪过自己在这个领域的预测成功率?如果没有,凭什么觉得准?
十万转发的新闻值多少
一条新闻在社交媒体上转了十万次。标题是"最新研究证明 X 导致 Y"。你的朋友也转了。
贝叶斯式提问:在看到这条新闻之前,X 导致 Y 的先验概率有多高?
如果之前就觉得"大概 50% 可能",一篇研究可以让你更新到 60%、70%——取决于研究质量。但如果先验概率只有 1%——比如某个反常识的因果声称——即便来源看起来可信,更新后也不应该超过 10%。
转发量不是证据强度。一百万人转了同一条低质量信息,证据权重还是低。社交传播反映的是情绪共鸣,不是事实可靠性。
调用入口:看到任何声称因果关系的信息,先估一个"在我看到这条之前,我觉得它有多大概率成立"。这个数字就是你的先验。然后根据信息来源的质量,决定该调整多少。
DNA 匹配 99.9%,嫌疑人一定有罪吗
法庭上,检方出示 DNA 证据:匹配率 99.9%。听起来铁证如山。
但 99.9% 匹配率指的是"如果嫌疑人留下了 DNA,匹配到的概率"。你该问的问题方向是反过来的——"匹配到了,嫌疑人留下 DNA 的概率是多少?"
这两个问题的答案可以天差地别。如果数据库有一百万条记录,99.9% 的匹配率会产生约一千个假匹配。嫌疑人只是一千零一分之一——远不是"铁证"。
这个错误有个名字:检察官谬误。它的结构是混淆了条件概率的方向——把"A 发生时 B 的概率"当成了"B 发生时 A 的概率"。
调用入口:遇到"高匹配率""高相关性""高准确率"的论证时,立刻检查条件概率的方向。"检测到了所以一定是真的"和"如果是真的检测一定检测得到"——这两句话看起来差不多,概率完全不同。