用发明者的问题倒推工具的正确用法

五组执行动作,帮你把 Salsburg 的历史叙事转化成日常使用统计工具时的判断习惯

本页目录

用发明者的问题倒推工具的正确用法

《女士品茶》不是统计教材,没有公式可以照搬。它提供的是另一种能力:知道每个统计工具为什么被设计成这样,从而在使用时不把扳手当锤子。

下面五组动作把 Salsburg 的历史叙事转化成可执行的判断习惯。方法强度不高——这毕竟是一本历史书——但每个动作都能立刻嵌进你已有的数据分析流程。

拿到 p 值先问三个问题

每次看到 p < 0.05(不管是自己算的还是别人报告的),暂停三秒,问自己:

  1. 零假设是什么? 费舍尔构造零假设的意思是"假设没有效果,看数据能不能推翻"。如果你说不清零假设的具体内容,这个 p 值对你没有意义。
  2. 0.05 在这个场景够用吗? 费舍尔在农田上用 0.05 够了,但在药物临床试验里可能需要 0.01 甚至更严格。阈值应该由决策代价决定,不由惯例决定。
  3. 我在用谁的框架? 如果你把 p 值当证据强度的连续度量——"p = 0.03 比 p = 0.04 证据更强"——你在费舍尔框架里。如果你只看"拒绝还是不拒绝",你在奈曼-皮尔逊框架里。两种解读对同一个数字给出不同结论。

做偏了的信号:你在报告里写了 p < 0.05 但说不出零假设是什么,或者你把"未能拒绝零假设"写成了"零假设成立"。

设计实验之前先画判断框架

费舍尔在泡茶实验之前就确定了三件事:零假设、随机化方案、判断标准。实验开始之后再定规则,等于先开枪再画靶。

每次设计 A/B 测试或对照实验,先写下:

  • 零假设是什么(通常是"新方案和旧方案没有差异")
  • 分组方式是什么(随机分配,还是你选了"看起来差不多"的两组)
  • 判断标准是什么(效果大到什么程度你才认为有意义)
  • 样本量够不够(费舍尔在洛桑试验站反复算样本量,就是因为不够大的样本什么结论都支撑不了)

完成标准:实验开始前,你能用三句话向同事解释"什么结果说明新方案有效、什么结果说明不了"。如果说不清,实验还没准备好。

遇到置信区间先翻译成奈曼的原话

"95% 置信区间"被日常解读为"真值有 95% 概率在这个范围里"。奈曼的原意不是这个。

他的意思是:如果你反复做实验、反复算置信区间,这种算法在长期中有 95% 的机会覆盖真值。单次实验的置信区间,真值要么在里面要么不在,没有概率可言。

执行动作:下次看到置信区间时,把日常解读替换成"这种算法长期来看覆盖真值的频率是 95%"。如果这个替换让你觉得结论没那么确定了——对,这就是奈曼的本意。

判断点:如果你需要的是"真值大概率在哪个范围"这种陈述,你需要的其实是贝叶斯可信区间,不是频率学派的置信区间。两者的数学和含义都不同。

评估陌生方法时查它的学术生态位

贝叶斯方法被压了半个世纪,不是因为数学不行,是因为学术权力结构。

下次遇到一种你没听说过的统计方法,别急着判断"不主流 = 不靠谱"。先做两件事:

  • 查这种方法的学术生态位:它是被某个学派压下去的,还是确实有已知缺陷?
  • 查它的使用场景:在什么条件下它比主流方法更合适?

Salsburg 的历史叙事反复证明一件事:学术主流的形成,不完全靠技术优劣,还靠谁掌握了期刊、教材和研究经费。

做偏了的信号:你因为"老师没教过"或"公司一直不这么用"就否定一种方法,而没有查过它的数学基础和适用场景。

看到"回归"先区分统计现象和因果解释

高尔顿发现回归均值是统计事实。但日常中它不断被误读成因果机制。

执行规则:当你看到"连续上升后回落""表现异常后恢复正常"这类描述时,先问一个问题——这个变化需要因果解释,还是抽样波动的自然结果?

区分方法:如果前期的"异常"本身就包含大量随机波动(比如样本量小、测量噪声大),那"回归"很可能是统计现象,不需要找原因。如果你能排除随机波动的贡献,再开始找因果解释。

完成标准:下次有人说"连续三个月业绩好的员工这个月掉下来了",你的第一反应不是"他松懈了",而是"前三个月的业绩里有多少是随机波动?"


一页速查

场景 先做什么
看到 p < 0.05 说出零假设、判断阈值是否合适、确认用的是哪个框架
要设计实验 先写零假设 + 随机化方案 + 判断标准 + 样本量
解读置信区间 翻译成"长期覆盖频率",判断是否需要贝叶斯可信区间
遇到陌生统计方法 查学术生态位和适用场景,不以"没听说过"否定
看到"均值回归" 先区分统计现象和因果解释

同分类继续看