性能之巅:系统、企业与云可观测性(第2版)

《性能之巅》这一组文稿围绕排障顺序、证据链、误判边界和逐章下钻组织,不按工具分类。

先定义问题,再打开工具。

细读

线上告警响了。CPU 不高,磁盘没满,网络没报错。服务就是慢。五个人盯了两小时,每人猜的方向不同——有人查 GC,有人查连接池,有人翻变更记录。最后发现是内核调度延迟。off-CPU 时间占了请求延迟的 70%。 排障效率低,原因很少是工具不够。mpstat、perf、tcpdump 都会敲。卡住的地方在上游:没有一条稳定的分析顺序。从哪里开始、什么时候排除、什么时候切工具、什么时候停下来——这些决策缺一个骨架。