本页目录

用发明者的问题倒推工具的正确用法

《女士品茶》不是统计教材，没有公式可以照搬。它提供的是另一种能力：知道每个统计工具为什么被设计成这样，从而在使用时不把扳手当锤子。

下面五组动作把 Salsburg 的历史叙事转化成可执行的判断习惯。方法强度不高——这毕竟是一本历史书——但每个动作都能立刻嵌进你已有的数据分析流程。

拿到 p 值先问三个问题

每次看到 p < 0.05（不管是自己算的还是别人报告的），暂停三秒，问自己：

零假设是什么？ 费舍尔构造零假设的意思是"假设没有效果，看数据能不能推翻"。如果你说不清零假设的具体内容，这个 p 值对你没有意义。
0.05 在这个场景够用吗？ 费舍尔在农田上用 0.05 够了，但在药物临床试验里可能需要 0.01 甚至更严格。阈值应该由决策代价决定，不由惯例决定。
我在用谁的框架？ 如果你把 p 值当证据强度的连续度量——"p = 0.03 比 p = 0.04 证据更强"——你在费舍尔框架里。如果你只看"拒绝还是不拒绝"，你在奈曼-皮尔逊框架里。两种解读对同一个数字给出不同结论。

做偏了的信号：你在报告里写了 p < 0.05 但说不出零假设是什么，或者你把"未能拒绝零假设"写成了"零假设成立"。

费舍尔在泡茶实验之前就确定了三件事：零假设、随机化方案、判断标准。实验开始之后再定规则，等于先开枪再画靶。

每次设计 A/B 测试或对照实验，先写下：

完成标准：实验开始前，你能用三句话向同事解释"什么结果说明新方案有效、什么结果说明不了"。如果说不清，实验还没准备好。

"95% 置信区间"被日常解读为"真值有 95% 概率在这个范围里"。奈曼的原意不是这个。

他的意思是：如果你反复做实验、反复算置信区间，这种算法在长期中有 95% 的机会覆盖真值。单次实验的置信区间，真值要么在里面要么不在，没有概率可言。

执行动作：下次看到置信区间时，把日常解读替换成"这种算法长期来看覆盖真值的频率是 95%"。如果这个替换让你觉得结论没那么确定了——对，这就是奈曼的本意。

判断点：如果你需要的是"真值大概率在哪个范围"这种陈述，你需要的其实是贝叶斯可信区间，不是频率学派的置信区间。两者的数学和含义都不同。

贝叶斯方法被压了半个世纪，不是因为数学不行，是因为学术权力结构。

下次遇到一种你没听说过的统计方法，别急着判断"不主流 = 不靠谱"。先做两件事：

Salsburg 的历史叙事反复证明一件事：学术主流的形成，不完全靠技术优劣，还靠谁掌握了期刊、教材和研究经费。

做偏了的信号：你因为"老师没教过"或"公司一直不这么用"就否定一种方法，而没有查过它的数学基础和适用场景。

高尔顿发现回归均值是统计事实。但日常中它不断被误读成因果机制。

执行规则：当你看到"连续上升后回落""表现异常后恢复正常"这类描述时，先问一个问题——这个变化需要因果解释，还是抽样波动的自然结果？

区分方法：如果前期的"异常"本身就包含大量随机波动（比如样本量小、测量噪声大），那"回归"很可能是统计现象，不需要找原因。如果你能排除随机波动的贡献，再开始找因果解释。

完成标准：下次有人说"连续三个月业绩好的员工这个月掉下来了"，你的第一反应不是"他松懈了"，而是"前三个月的业绩里有多少是随机波动？"

一页速查