八句话把统计工具从黑箱变成有来历的判断
每个工具都有发明者的指纹
统计学不是数学的一个分支——它是一群科学家在实际困难面前被迫发明的判断工具。
Salsburg 全书最底层的提醒。费舍尔在农田里、皮尔逊在实验室里、奈曼在保险精算场景里——每个统计方法的起点都是一个具体的实际问题,不是一道数学题。下次打开统计软件之前,先问自己:我面对的问题,和发明者当初面对的问题是同一类吗?
p = 0.05 不是自然常数,是费舍尔觉得"在多数实际场景下够用"的经验阈值。
这条阈值没有数学证明,没有物理含义。费舍尔本人在不同场合用过不同阈值。0.05 流行开来,是因为它在农业试验中恰好够用,再加上教科书反复抄写。把 p < 0.05 等同于"科学结论",是对费舍尔的最大误读。
零假设不是你相信的东西,是你想要推翻的东西。
费舍尔设计零假设时,意思是"假设处理没有效果,看数据能不能把这个假设推翻"。零假设是靶子,不是立场。很多使用者搞反了方向:把"未能拒绝零假设"当成"零假设成立",等于把"没找到证据说他有罪"理解成"他是清白的"。
两个框架的混血至今没人承认
今天的假设检验课程,其实在教两套互不兼容的体系,却假装它们是一回事。
费舍尔的显著性检验和奈曼-皮尔逊的假设检验,对"p 值意味着什么"给出截然不同的回答。前者把 p 值当成证据强度的连续度量;后者把它当成二元决策的切割工具。教科书混编了两者,但没告诉你它们在吵什么。用统计之前先搞清楚自己在哪个框架里,是不犯错的前提。
置信区间说的不是"真值有 95% 概率在这个范围里";它说的是"如果反复抽样,这种算法有 95% 的机会覆盖真值"。
奈曼设计置信区间时,关注的是长期频率性质,不是单次实验的概率陈述。几乎所有对置信区间的日常解读都是贝叶斯式的——而贝叶斯解读需要先验分布,奈曼的框架里没有这个东西。
方法的流行不完全靠数学优劣
一种统计方法能不能流行,不只取决于它在数学上站不站得住,还取决于谁掌握了期刊和谁定义了教学大纲。
贝叶斯方法被压制了半个世纪,不是因为数学有缺陷。是因为频率学派控制了主要期刊的审稿流程和大学统计课的教学标准。学术权力结构能让一种有效方法沉默几十年。看到一种方法"主流"或"边缘",先别急着判断优劣——查一查它的学术生态位。
随机化不是为了省事,是在无法控制所有变量时唯一公平的安排方式。
费舍尔在洛桑试验站设计随机化,是因为土壤不均匀、气候不可控,没有办法用"其他条件不变"来做实验。随机化把不可控因素均匀分散到各组里,让你在承认无知的前提下仍然能做判断。每次有人说"我们已经控制了所有变量",你应该问:你确定吗?
发明现场是最好的使用说明书
不回到发明现场,你就只能按教科书的操作手册使用工具——手册里不会写"这把扳手不能当锤子用"。
Salsburg 全书的结论性提醒。统计工具的操作手册告诉你怎么算,不告诉你什么时候不该算。费舍尔为什么选 0.05、奈曼为什么要区分两类错误、贝叶斯方法为什么需要先验——这些设计决策背后的理由,只有回到发明现场才能看见。
调用场景速查
| 你在做什么 | 先想起哪句 |
|---|---|
| 看到 p < 0.05 就要下结论 | 0.05 是经验阈值,不是真理印章 |
| 解读置信区间 | 它说的是长期频率,不是单次概率 |
| 在报告里写"统计显著" | 先确认自己在费舍尔框架还是奈曼-皮尔逊框架里 |
| 设计实验要不要随机化 | 随机化是承认无知前提下的公平安排 |
| 评估一种"冷门"统计方法 | 检查它的学术生态位,别只看流行度 |
| 拿到一个统计工具不知道怎么用 | 回到发明现场找使用说明 |