九条规则不灵的时候

本页目录

单人排障、单次故障——规则最强的地方

一个工程师，面对一个明确的故障，需要找到根因并修复。这是九条规则的设计目标。

更具体地说：你有能力观察系统、能修改代码或配置、能控制复现条件。在这个范围内，九条规则几乎可以覆盖所有调试场景——不管是前端 bug、后端服务异常、嵌入式设备故障还是硬件电路问题。

前提是你有足够的系统访问权限。能看日志、能加断点、能改配置。一旦这个前提不成立，好几条规则就会卡壳。

"别猜了，去看"——但如果你看不到呢？

云环境里的第三方服务、封装好的硬件模块、没有日志输出的遗留系统。你知道应该去看数据，但没有数据可看。"分而治之"也一样：你想在中间插个检查点，但系统不允许你在那个位置插入。

遇到这种情况，规则告诉你方向是对的，但执行不了。你需要先解决可观测性的问题——加日志、开调试端口、申请权限——然后再回来用规则。

九条规则不帮你获取观察能力。这是它最明确的边界。

九条规则默认的调试主体是一个人。当五个人同时排查同一个生产故障时，规则需要扩展。

"一次只改一个变量"——但三个人同时在改不同的变量。"保留审计轨迹"——但没人知道别人改了什么。"让它出错"——但你复现的时候，另一个人刚重启了服务。

九条规则在团队环境里仍然有效，但需要一层协调机制在上面：谁负责哪段、修改前先通报、共享一份调试日志。这层协调不在规则的覆盖范围内。

最常见的误用：把九条规则当成"先做第一条，再做第二条"。

它们不是流程，是检查清单。你可以从任何一条开始，可以跳着用，可以在卡住时随时回到任何一条。如果你机械地按顺序走——遇到一个明显是"插头没插"的问题，却还在"理解系统"上花两小时——那就走偏了。

判断标准：此刻你在用规则帮自己排障，还是在执行规则本身？如果注意力从 bug 转移到了"下一条规则是什么"，用法就错了。

九条规则针对的是"系统有一个明确的故障"。性能问题通常不是单一故障——系统能跑，只是慢。"让它出错"在性能场景里的含义不够清晰：什么叫出错？慢 10% 算吗？

架构问题更是如此。你发现的不是 bug 而是设计缺陷，九条规则能帮你定位问题，但修复方案超出了"调试"的范围。

遇到性能或架构问题，九条规则可以辅助定位——但核心方法需要换成性能分析框架或架构评审流程。

三个信号提示规则在当前场景里不够用。

规则走了一轮，每条都执行了，但还是没找到根因。 通常意味着对系统的理解存在盲区——不是规则的问题，是"理解系统"这条规则的深度不够。需要补充领域知识或找更熟悉该系统的人。

原因涉及多个组件的交互。 分布式系统的跨服务故障、硬件和固件的联动问题、多线程竞态——这些场景里"分而治之"的切面很难找。需要在九条规则之外引入特定调试技术（链路追踪、Race Detector、信号时序分析）。

发现的不是 bug，而是需求理解偏差。 系统按设计运行，但设计本身和用户预期不一致。你需要的是产品讨论，不是调试。