LLM 推理优化学习路线

学习路线总览

基于你已经掌握 prefill/decode/forward 流程的基础，按以下顺序学习：

① KV Cache          → ② 性能瓶颈分析    → ③ 量化
   (内存命根子)         (Compute/Memory)     (INT4/INT8/FP8)
        │                    │                    │
        └────────────────────┼────────────────────┘
                             ↓
④ 批处理与调度       → ⑤ 投机解码        → ⑥ 推理引擎
   (Continuous Batch)    (Speculative)       (vLLM 源码)

文件索引

序号	文件	核心内容
01	KV Cache	内存计算公式、MHA/GQA、PagedAttention、长文本策略
02	Compute vs Memory Bound	Roofline 模型、Prefill 算力瓶颈、Decode 带宽瓶颈
03	量化	数据格式、GPTQ/AWQ/GGUF 对比、分组量化
04	批处理与调度	静态/动态/连续批处理、Chunked Prefill、分离调度
05	投机解码	Draft-Verify 流程、EAGLE/Medusa、无损加速证明
06	推理引擎	vLLM/TRT-LLM/SGLang 架构、FlashAttention、并行策略

一句话路线图

KV Cache 显存计算 → Prefill/Decode 瓶颈 → 量化原理 → 动态批处理 → 投机解码 → 看 vLLM 源码