本页目录

每个统计工具背后都有一个被逼到墙角的发明者

你大概用过 p 值。可能跑过回归。也许还在报告里写过"结果具有统计学显著性"。

但如果有人问：0.05 这条线是怎么来的？"置信区间"到底在说谁的信心？"零假设"这个词为什么听起来这么别扭？

多数使用者答不上来。不是数学能力的问题——是你从来没见过发明这些工具的人，不知道他们当时面对什么处境。

p 值诞生在农田里，不在教室里

罗纳德·费舍尔在英国洛桑农业试验站工作。他面对的问题极其朴素：不同肥料对小麦产量到底有没有影响？

土壤不均匀，气候年年变，样本量永远不够大。他需要一种方法，在噪声里把信号捞出来。

p 值就是这么来的。它不是数学家推导的优雅定理；是一个在田间做实验的人被迫发明的判断工具。0.05 这条线不是宇宙常数，是费舍尔觉得"多数实际场景下够用"的经验阈值。

知道这个来历，你就不会把 p < 0.05 当成"科学已证明"的同义词。

书名来自一个真实场景。生物学家穆里尔·布里斯托在下午茶时声称，她能尝出奶茶里先倒的是牛奶还是茶。

在座的人觉得荒唐。费舍尔却认真了。

他立刻设计实验：八杯茶，四杯先倒奶、四杯先倒茶，随机排列，让布里斯托逐一品尝。

这个看似无聊的赌局催生了现代实验设计的核心原则——随机化、盲法、样本量计算、零假设构造。费舍尔在下午茶场景里解决的问题，后来成了临床试验、A/B 测试、社会科学实验的通用底座。

Salsburg 把这个故事放在开头，意思很明确：统计学里那些抽象的概念，最初都是为了回答一个非常具体的问题。

卡尔·皮尔逊创建了现代统计学的早期框架——卡方检验、相关系数、回归分析的数学基础。费舍尔在皮尔逊的基础上往前走，但两人关系极差。

不只是个人恩怨。皮尔逊认为统计学应该是纯数学分支；费舍尔认为统计学必须服务于实际实验。这条路线分歧，塑造了后来一百年的统计学教育。

更复杂的是，卡尔的儿子埃贡·皮尔逊和波兰数学家奈曼后来联手，提出了"假设检验"的严格框架：两类错误、检验功效、置信区间。这套框架和费舍尔的显著性检验并不一样，但在教科书里常被混为一谈。

今天统计课上的"假设检验"，其实是费舍尔体系和奈曼-皮尔逊体系的混血产物。两个体系对"p 值意味着什么"的回答截然不同。不知道这段历史，你甚至不会意识到自己在用一套内部矛盾的工具。

20 世纪前半段，频率学派几乎垄断了话语权。贝叶斯方法——基于先验信息更新概率判断的思路——被视为不科学、不客观。

Salsburg 详细讲述了压制是如何发生的。不是因为贝叶斯方法在数学上站不住；是因为学术权力结构、期刊审稿偏好、学派认同，把一种有效方法边缘化了几十年。

到 20 世纪后半段，计算能力爆发，复杂模型需要贝叶斯方法才能处理，压制才逐渐松动。

这段历史的价值不在"谁更好"。它让你看到：一种统计方法的流行程度，不完全取决于数学优劣，还取决于谁掌握了期刊、谁定义了教育标准。

Salsburg 写的不是统计学教材，是一群人面对不确定性时的判断史。

读完之后你不会多学会一个公式。但你会开始用不同方式看待手里的工具——

p 值不是真理印章，是费舍尔在有限样本下做判断的权宜之计。置信区间不是"真值大概率在这个范围里"，是奈曼为了控制长期错误率设计的决策框架。随机化不是为了省事，是在不均匀条件下能想到的唯一公平安排。

这些区分看起来像学究之争。但如果你在工作中需要基于数据做判断——产品实验、市场调研、学术研究——搞混这些区分的代价是真实的。

Salsburg 用人物故事还原了发明现场。回到现场，才能看清工具的设计意图。看清设计意图，才不会指着扳手说"这把锤子不好使"。