第1章 导论:先把「系统慢了」拆成能继续分析的问题
第1章真正立住的不是概念,而是性能分析的起手纪律:先把「慢」客观化、定边界、拿轻量快照,再决定往哪层收缩。
逐章拆解按问题入口组织:现象卡在哪层,就下钻对应章节,不按目录顺序硬读。
第1章真正立住的不是概念,而是性能分析的起手纪律:先把「慢」客观化、定边界、拿轻量快照,再决定往哪层收缩。
第 2 章不是在讲方法名,而是在定排障顺序:先把问题写清,再决定从资源侧还是服务侧起手,用工作负载特征缩小范围,最后再把热点压成可验证的解释。
操作系统章先把系统层次图立住:应用、系统调用、内核子系统、文件系统和设备层是同一条路径上的不同显影位点。
可观测性工具各有问题边界,tracing 不该默认起手,先看你缺的是范围、路径还是细节。
很多看起来像系统瓶颈的问题,根子其实在请求路径、锁竞争和运行时行为。
CPU 章节拆的是做工、排队、降频和失真四类现象;只看利用率不够,还要补 IPC/CPI、队列延迟、频率与缓存/NUMA 证据。
把这一章最值得反复拿出来用的判断压成独立记忆卡片,供快速复习和现场回看。
内存判断的关键在于分清正常利用、回收压力和真正进入关键路径的瓶颈。
文件系统问题要先分层,区分缓存、页缓存、文件系统路径和底层设备,不能直接等同于磁盘慢。
磁盘分析先看工作负载和排队关系,再判断设备能力,均值指标本身不够用。
网络慢要先拆成本端、对端和中间链路三段,不能把所有延迟都笼统归成网络差。
云环境会改变资源边界、时钟感知和邻居干扰,裸机经验不能直接照搬。
基准测试的重点不在数字大小,而在实验设计是否能支撑结论。
perf 适合在问题已经收窄后补采样证据,不适合在问题尚未定义时充当起手工具。
Ftrace 适用于问题已靠近内核路径、但仍缺时序和执行细节的场景。
BPF 只有在观测问句已经足够清楚时才值得进入,否则复杂度会先于答案增长。
案例研究把症状、误判、证据转折和最终解释串成完整链路,展示整套方法怎样落地。
主屏入口
安装后可以像应用一样打开,也能继续看已缓存的页面和笔记。