本页目录
泡茶实验、农田噪声、百年学派战争——五个塑造现代统计学的局面
以下五个局面来自 Salsburg 对 20 世纪统计学革命的叙述。它们不是教科书案例,是历史事件——但每个事件对应一个你在日常数据分析中容易判断错的环节。
布里斯托的奶茶杯:随机化实验的诞生
穆里尔·布里斯托声称她能尝出奶茶里先倒的是牛奶还是茶。费舍尔没有一笑了之,而是当场设计了一个实验:八杯茶,四杯先倒奶、四杯先倒茶,随机排列,逐一品尝。
这个下午茶赌局的意义远超品茶本身。费舍尔在这里完成了三件事:构造零假设("她在随机猜")、引入随机化(杯子顺序随机排列)、事先确定判断标准(全对才算通过)。
你什么时候会用到这个局面:设计 A/B 测试或任何对照实验时。如果你的实验没有随机分组、没有事先设定判断标准、没有明确零假设,那你做的不是实验,是在数据里找感觉。
费舍尔设计这个实验的关键不是"怎么算"。是他在动手之前就想清楚了"什么结果能说明问题、什么结果说明不了"。多数 A/B 测试的失败不在统计方法上,在于实验开始前没问这个问题。
洛桑试验站的烂地:p 值为什么是 0.05
费舍尔在洛桑农业试验站工作了十几年。他要回答的问题看似简单:哪种肥料让小麦长得更好?
但田间条件极其混乱。同一块地的不同位置,土壤成分不同、排水条件不同、日照角度不同。样本量受限于地块面积,不可能无限扩大。
费舍尔需要一个标准,帮他在噪声里做出"这个差异大概不是偶然"的判断。p < 0.05——在零假设为真的情况下,观察到这么极端结果的概率小于 5%——就是这个标准。
它不是定理。费舍尔在不同论文里用过不同阈值。0.05 流行开来,部分原因是他在《研究者的统计方法》一书中反复使用这个数字,部分原因是后来的教科书把它固化成了规则。
下次你看到 p < 0.05,记住它诞生的语境:一个在烂地上做实验的人,需要一条"大致够用"的判断线。它从来不是"科学已证明"的同义词。
费舍尔对战皮尔逊父子:两种统计哲学的百年分裂
卡尔·皮尔逊是费舍尔的前辈,建立了相关系数、卡方检验等早期工具。费舍尔年轻时给皮尔逊投过稿,被拒。此后两人关系恶化,演变成持续几十年的公开对抗。
冲突的核心不是个人恩怨。皮尔逊认为统计学是纯数学;费舍尔认为统计学必须扎根于实际实验。这两条路线的分歧,决定了统计学教育的走向。
后来卡尔的儿子埃贡·皮尔逊和奈曼合作,提出了另一套假设检验框架:预先设定显著性水平、区分第一类和第二类错误、计算检验功效。这套框架和费舍尔的显著性检验表面相似,底层逻辑不同。
你什么时候会撞上这个分裂:每次打开统计教科书。今天的"假设检验"教学把费舍尔的 p 值和奈曼-皮尔逊的决策框架混在一起教。你以为你在用一套完整工具,其实你在用两套互相矛盾的工具的拼接版。
识别方法:如果你把 p 值当成"证据有多强"的连续度量,你在费舍尔框架里。如果你把 p 值当成"拒绝 / 不拒绝"的二元开关,你在奈曼-皮尔逊框架里。两者对同一个数字的解读完全不同。
贝叶斯方法的五十年冷宫:学术权力如何塑造方法选择
贝叶斯方法的核心思路是:用先验知识加上新数据,更新你对某件事的概率判断。数学上没有硬伤,某些场景下比频率方法更直觉、更灵活。
但 20 世纪前半段,贝叶斯方法几乎被逐出主流统计学。Salsburg 描述了压制的机制:费舍尔公开批评贝叶斯方法"不客观";频率学派学者控制了主要期刊的审稿流程;大学课程默认只教频率方法。
一种方法的"边缘"地位,不一定反映它的数学价值。它可能只是反映了学术权力的分布。
你什么时候需要这个提醒:评估一种不熟悉的统计方法时。如果你的第一反应是"没听说过,大概不靠谱",先查一查它是被学术竞争压下去的,还是确实有技术缺陷。20 世纪后半段计算能力爆发后,贝叶斯方法迅速回到主流——不是因为数学变了,是因为算得动了。
回归均值的反复误读:高尔顿的发现被用错了一百年
弗朗西斯·高尔顿发现了"回归均值"现象:特别高的父亲,儿子往往没那么高;特别矮的父亲,儿子往往没那么矮。子代的身高向群体均值"回归"。
这个发现本身是统计事实。但后来被反复误读成因果解释——"极端表现之后一定会回落""连续好成绩之后必然走下坡路"。
Salsburg 指出,回归均值是抽样的数学性质,不是因果机制。连续三个月业绩特别好的销售员,下个月业绩"回归",可能只是因为前三个月的高业绩本身就包含了随机波动的贡献。惩罚"回归"的销售员,等于在惩罚随机性。
下次你看到"某某指标连续上升后回落",先问:这是真的趋势变化,还是统计意义上的回归均值?两者需要完全不同的应对方式。前者需要查原因;后者只需要等下一次抽样。