每个统计工具背后都有一个被逼到墙角的发明者

通过 20 世纪统计学革命的人物故事,还原 p 值、置信区间、实验设计的发明现场,让使用者理解工具的设计意图和适用边界

本页目录

每个统计工具背后都有一个被逼到墙角的发明者

你大概用过 p 值。可能跑过回归。也许还在报告里写过"结果具有统计学显著性"。

但如果有人问:0.05 这条线是怎么来的?"置信区间"到底在说谁的信心?"零假设"这个词为什么听起来这么别扭?

多数使用者答不上来。不是数学能力的问题——是你从来没见过发明这些工具的人,不知道他们当时面对什么处境。

p 值诞生在农田里,不在教室里

罗纳德·费舍尔在英国洛桑农业试验站工作。他面对的问题极其朴素:不同肥料对小麦产量到底有没有影响?

土壤不均匀,气候年年变,样本量永远不够大。他需要一种方法,在噪声里把信号捞出来。

p 值就是这么来的。它不是数学家推导的优雅定理;是一个在田间做实验的人被迫发明的判断工具。0.05 这条线不是宇宙常数,是费舍尔觉得"多数实际场景下够用"的经验阈值。

知道这个来历,你就不会把 p < 0.05 当成"科学已证明"的同义词。

一杯茶引发的实验设计革命

书名来自一个真实场景。生物学家穆里尔·布里斯托在下午茶时声称,她能尝出奶茶里先倒的是牛奶还是茶。

在座的人觉得荒唐。费舍尔却认真了。

他立刻设计实验:八杯茶,四杯先倒奶、四杯先倒茶,随机排列,让布里斯托逐一品尝。

这个看似无聊的赌局催生了现代实验设计的核心原则——随机化、盲法、样本量计算、零假设构造。费舍尔在下午茶场景里解决的问题,后来成了临床试验、A/B 测试、社会科学实验的通用底座。

Salsburg 把这个故事放在开头,意思很明确:统计学里那些抽象的概念,最初都是为了回答一个非常具体的问题。

费舍尔和皮尔逊的恩怨至今在教科书里发作

卡尔·皮尔逊创建了现代统计学的早期框架——卡方检验、相关系数、回归分析的数学基础。费舍尔在皮尔逊的基础上往前走,但两人关系极差。

不只是个人恩怨。皮尔逊认为统计学应该是纯数学分支;费舍尔认为统计学必须服务于实际实验。这条路线分歧,塑造了后来一百年的统计学教育。

更复杂的是,卡尔的儿子埃贡·皮尔逊和波兰数学家奈曼后来联手,提出了"假设检验"的严格框架:两类错误、检验功效、置信区间。这套框架和费舍尔的显著性检验并不一样,但在教科书里常被混为一谈。

今天统计课上的"假设检验",其实是费舍尔体系和奈曼-皮尔逊体系的混血产物。两个体系对"p 值意味着什么"的回答截然不同。不知道这段历史,你甚至不会意识到自己在用一套内部矛盾的工具。

贝叶斯学派被压了半个世纪才翻身

20 世纪前半段,频率学派几乎垄断了话语权。贝叶斯方法——基于先验信息更新概率判断的思路——被视为不科学、不客观。

Salsburg 详细讲述了压制是如何发生的。不是因为贝叶斯方法在数学上站不住;是因为学术权力结构、期刊审稿偏好、学派认同,把一种有效方法边缘化了几十年。

到 20 世纪后半段,计算能力爆发,复杂模型需要贝叶斯方法才能处理,压制才逐渐松动。

这段历史的价值不在"谁更好"。它让你看到:一种统计方法的流行程度,不完全取决于数学优劣,还取决于谁掌握了期刊、谁定义了教育标准。

理解发明者的处境,才能不把工具用反

Salsburg 写的不是统计学教材,是一群人面对不确定性时的判断史。

读完之后你不会多学会一个公式。但你会开始用不同方式看待手里的工具——

p 值不是真理印章,是费舍尔在有限样本下做判断的权宜之计。置信区间不是"真值大概率在这个范围里",是奈曼为了控制长期错误率设计的决策框架。随机化不是为了省事,是在不均匀条件下能想到的唯一公平安排。

这些区分看起来像学究之争。但如果你在工作中需要基于数据做判断——产品实验、市场调研、学术研究——搞混这些区分的代价是真实的。

Salsburg 用人物故事还原了发明现场。回到现场,才能看清工具的设计意图。看清设计意图,才不会指着扳手说"这把锤子不好使"。

同分类继续看