逐章拆解

逐章拆解按问题入口组织：现象卡在哪层，就下钻对应章节，不按目录顺序硬读。

17 个入口技术工程

01 第1章导论：先把「系统慢了」拆成能继续分析的问题 02 第2章方法论：先分流，再下钻，热点不是根因 03 第3章操作系统：同一次慢会在多层显影，先画路径再谈根因 04 第4章可观测性工具：先知道缺哪段证据，再选哪类工具 05 第5章应用：机器没打满，也可能先从应用侧出问题 06 第6章 CPU：CPU 高，不等于 CPU 已经成了问题 07 第7章内存：内存满，不等于内存已经成了瓶颈：记忆卡 07 第7章内存：内存满，不等于内存已经成了瓶颈 08 第8章文件系统：文件慢，不一定是磁盘慢 09 第9章磁盘：别拿一个 await 或 util 就宣布磁盘有问题 10 第10章网络：单边证据不够，先把端点、链路、对端拆开 11 第11章云计算：环境一变，很多裸机直觉都会失真 12 第12章基准测试：不是跑出数字，而是先让数字可信 13 第13章 perf：先确定问题像 CPU 和调用栈，再让 perf 上场 14 第14章 Ftrace：问题已经落到内核路径里时，再让它上场 15 第15章 BPF：问题已经压清楚时，它才会特别好用 16 第16章案例研究：真正值钱的是转折点，不是最后那个答案

第1章导论：先把「系统慢了」拆成能继续分析的问题

第1章真正立住的不是概念，而是性能分析的起手纪律：先把「慢」客观化、定边界、拿轻量快照，再决定往哪层收缩。

打开文稿 →

第2章方法论：先分流，再下钻，热点不是根因

第 2 章不是在讲方法名，而是在定排障顺序：先把问题写清，再决定从资源侧还是服务侧起手，用工作负载特征缩小范围，最后再把热点压成可验证的解释。

打开文稿 →

第3章操作系统：同一次慢会在多层显影，先画路径再谈根因

操作系统章先把系统层次图立住：应用、系统调用、内核子系统、文件系统和设备层是同一条路径上的不同显影位点。

打开文稿 →

第4章可观测性工具：先知道缺哪段证据，再选哪类工具

可观测性工具各有问题边界，tracing 不该默认起手，先看你缺的是范围、路径还是细节。

打开文稿 →

第5章应用：机器没打满，也可能先从应用侧出问题

很多看起来像系统瓶颈的问题，根子其实在请求路径、锁竞争和运行时行为。

打开文稿 →

第6章 CPU：CPU 高，不等于 CPU 已经成了问题

CPU 章节拆的是做工、排队、降频和失真四类现象；只看利用率不够，还要补 IPC/CPI、队列延迟、频率与缓存/NUMA 证据。

打开文稿 →

第7章内存：内存满，不等于内存已经成了瓶颈：记忆卡

把这一章最值得反复拿出来用的判断压成独立记忆卡片，供快速复习和现场回看。

打开文稿 →

第7章内存：内存满，不等于内存已经成了瓶颈

内存判断的关键在于分清正常利用、回收压力和真正进入关键路径的瓶颈。

打开文稿 →

第8章文件系统：文件慢，不一定是磁盘慢

文件系统问题要先分层，区分缓存、页缓存、文件系统路径和底层设备，不能直接等同于磁盘慢。

打开文稿 →

第9章磁盘：别拿一个 await 或 util 就宣布磁盘有问题

磁盘分析先看工作负载和排队关系，再判断设备能力，均值指标本身不够用。

打开文稿 →

第10章网络：单边证据不够，先把端点、链路、对端拆开

网络慢要先拆成本端、对端和中间链路三段，不能把所有延迟都笼统归成网络差。

打开文稿 →

第11章云计算：环境一变，很多裸机直觉都会失真

云环境会改变资源边界、时钟感知和邻居干扰，裸机经验不能直接照搬。

打开文稿 →

第12章基准测试：不是跑出数字，而是先让数字可信

基准测试的重点不在数字大小，而在实验设计是否能支撑结论。

打开文稿 →

第13章 perf：先确定问题像 CPU 和调用栈，再让 perf 上场

perf 适合在问题已经收窄后补采样证据，不适合在问题尚未定义时充当起手工具。

打开文稿 →

第14章 Ftrace：问题已经落到内核路径里时，再让它上场

Ftrace 适用于问题已靠近内核路径、但仍缺时序和执行细节的场景。

打开文稿 →

第15章 BPF：问题已经压清楚时，它才会特别好用

BPF 只有在观测问句已经足够清楚时才值得进入，否则复杂度会先于答案增长。

打开文稿 →

第16章案例研究：真正值钱的是转折点，不是最后那个答案

案例研究把症状、误判、证据转折和最终解释串成完整链路，展示整套方法怎样落地。

打开文稿 →

逐章拆解

第1章 导论：先把「系统慢了」拆成能继续分析的问题

第2章 方法论：先分流，再下钻，热点不是根因

第3章 操作系统：同一次慢会在多层显影，先画路径再谈根因

第4章 可观测性工具：先知道缺哪段证据，再选哪类工具

第5章 应用：机器没打满，也可能先从应用侧出问题

第6章 CPU：CPU 高，不等于 CPU 已经成了问题

第7章 内存：内存满，不等于内存已经成了瓶颈：记忆卡

第7章 内存：内存满，不等于内存已经成了瓶颈

第8章 文件系统：文件慢，不一定是磁盘慢

第9章 磁盘：别拿一个 await 或 util 就宣布磁盘有问题

第10章 网络：单边证据不够，先把端点、链路、对端拆开

第11章 云计算：环境一变，很多裸机直觉都会失真

第12章 基准测试：不是跑出数字，而是先让数字可信

第13章 perf：先确定问题像 CPU 和调用栈，再让 perf 上场

第14章 Ftrace：问题已经落到内核路径里时，再让它上场

第15章 BPF：问题已经压清楚时，它才会特别好用

第16章 案例研究：真正值钱的是转折点，不是最后那个答案

把今天读什么装到主屏幕

第1章导论：先把「系统慢了」拆成能继续分析的问题

第2章方法论：先分流，再下钻，热点不是根因

第3章操作系统：同一次慢会在多层显影，先画路径再谈根因

第4章可观测性工具：先知道缺哪段证据，再选哪类工具

第5章应用：机器没打满，也可能先从应用侧出问题

第7章内存：内存满，不等于内存已经成了瓶颈：记忆卡

第7章内存：内存满，不等于内存已经成了瓶颈

第8章文件系统：文件慢，不一定是磁盘慢

第9章磁盘：别拿一个 await 或 util 就宣布磁盘有问题

第10章网络：单边证据不够，先把端点、链路、对端拆开

第11章云计算：环境一变，很多裸机直觉都会失真

第12章基准测试：不是跑出数字，而是先让数字可信

第16章案例研究：真正值钱的是转折点，不是最后那个答案