本页目录

泡茶实验、农田噪声、百年学派战争——五个塑造现代统计学的局面

以下五个局面来自 Salsburg 对 20 世纪统计学革命的叙述。它们不是教科书案例，是历史事件——但每个事件对应一个你在日常数据分析中容易判断错的环节。

布里斯托的奶茶杯：随机化实验的诞生

穆里尔·布里斯托声称她能尝出奶茶里先倒的是牛奶还是茶。费舍尔没有一笑了之，而是当场设计了一个实验：八杯茶，四杯先倒奶、四杯先倒茶，随机排列，逐一品尝。

这个下午茶赌局的意义远超品茶本身。费舍尔在这里完成了三件事：构造零假设（"她在随机猜"）、引入随机化（杯子顺序随机排列）、事先确定判断标准（全对才算通过）。

你什么时候会用到这个局面：设计 A/B 测试或任何对照实验时。如果你的实验没有随机分组、没有事先设定判断标准、没有明确零假设，那你做的不是实验，是在数据里找感觉。

费舍尔设计这个实验的关键不是"怎么算"。是他在动手之前就想清楚了"什么结果能说明问题、什么结果说明不了"。多数 A/B 测试的失败不在统计方法上，在于实验开始前没问这个问题。

费舍尔在洛桑农业试验站工作了十几年。他要回答的问题看似简单：哪种肥料让小麦长得更好？

但田间条件极其混乱。同一块地的不同位置，土壤成分不同、排水条件不同、日照角度不同。样本量受限于地块面积，不可能无限扩大。

费舍尔需要一个标准，帮他在噪声里做出"这个差异大概不是偶然"的判断。p < 0.05——在零假设为真的情况下，观察到这么极端结果的概率小于 5%——就是这个标准。

它不是定理。费舍尔在不同论文里用过不同阈值。0.05 流行开来，部分原因是他在《研究者的统计方法》一书中反复使用这个数字，部分原因是后来的教科书把它固化成了规则。

下次你看到 p < 0.05，记住它诞生的语境：一个在烂地上做实验的人，需要一条"大致够用"的判断线。它从来不是"科学已证明"的同义词。

卡尔·皮尔逊是费舍尔的前辈，建立了相关系数、卡方检验等早期工具。费舍尔年轻时给皮尔逊投过稿，被拒。此后两人关系恶化，演变成持续几十年的公开对抗。

冲突的核心不是个人恩怨。皮尔逊认为统计学是纯数学；费舍尔认为统计学必须扎根于实际实验。这两条路线的分歧，决定了统计学教育的走向。

后来卡尔的儿子埃贡·皮尔逊和奈曼合作，提出了另一套假设检验框架：预先设定显著性水平、区分第一类和第二类错误、计算检验功效。这套框架和费舍尔的显著性检验表面相似，底层逻辑不同。

你什么时候会撞上这个分裂：每次打开统计教科书。今天的"假设检验"教学把费舍尔的 p 值和奈曼-皮尔逊的决策框架混在一起教。你以为你在用一套完整工具，其实你在用两套互相矛盾的工具的拼接版。

识别方法：如果你把 p 值当成"证据有多强"的连续度量，你在费舍尔框架里。如果你把 p 值当成"拒绝 / 不拒绝"的二元开关，你在奈曼-皮尔逊框架里。两者对同一个数字的解读完全不同。

贝叶斯方法的核心思路是：用先验知识加上新数据，更新你对某件事的概率判断。数学上没有硬伤，某些场景下比频率方法更直觉、更灵活。

但 20 世纪前半段，贝叶斯方法几乎被逐出主流统计学。Salsburg 描述了压制的机制：费舍尔公开批评贝叶斯方法"不客观"；频率学派学者控制了主要期刊的审稿流程；大学课程默认只教频率方法。

一种方法的"边缘"地位，不一定反映它的数学价值。它可能只是反映了学术权力的分布。

你什么时候需要这个提醒：评估一种不熟悉的统计方法时。如果你的第一反应是"没听说过，大概不靠谱"，先查一查它是被学术竞争压下去的，还是确实有技术缺陷。20 世纪后半段计算能力爆发后，贝叶斯方法迅速回到主流——不是因为数学变了，是因为算得动了。

弗朗西斯·高尔顿发现了"回归均值"现象：特别高的父亲，儿子往往没那么高；特别矮的父亲，儿子往往没那么矮。子代的身高向群体均值"回归"。

这个发现本身是统计事实。但后来被反复误读成因果解释——"极端表现之后一定会回落""连续好成绩之后必然走下坡路"。

Salsburg 指出，回归均值是抽样的数学性质，不是因果机制。连续三个月业绩特别好的销售员，下个月业绩"回归"，可能只是因为前三个月的高业绩本身就包含了随机波动的贡献。惩罚"回归"的销售员，等于在惩罚随机性。

下次你看到"某某指标连续上升后回落"，先问：这是真的趋势变化，还是统计意义上的回归均值？两者需要完全不同的应对方式。前者需要查原因；后者只需要等下一次抽样。