LLM 推理优化学习路线
学习路线总览
基于你已经掌握 prefill/decode/forward 流程的基础,按以下顺序学习:
① KV Cache → ② 性能瓶颈分析 → ③ 量化
(内存命根子) (Compute/Memory) (INT4/INT8/FP8)
│ │ │
└────────────────────┼────────────────────┘
↓
④ 批处理与调度 → ⑤ 投机解码 → ⑥ 推理引擎
(Continuous Batch) (Speculative) (vLLM 源码)
文件索引
| 序号 | 文件 | 核心内容 |
|---|---|---|
| 01 | KV Cache | 内存计算公式、MHA/GQA、PagedAttention、长文本策略 |
| 02 | Compute vs Memory Bound | Roofline 模型、Prefill 算力瓶颈、Decode 带宽瓶颈 |
| 03 | 量化 | 数据格式、GPTQ/AWQ/GGUF 对比、分组量化 |
| 04 | 批处理与调度 | 静态/动态/连续批处理、Chunked Prefill、分离调度 |
| 05 | 投机解码 | Draft-Verify 流程、EAGLE/Medusa、无损加速证明 |
| 06 | 推理引擎 | vLLM/TRT-LLM/SGLang 架构、FlashAttention、并行策略 |
一句话路线图
KV Cache 显存计算 → Prefill/Decode 瓶颈 → 量化原理 → 动态批处理 → 投机解码 → 看 vLLM 源码
修改历史1 次提交
- docs(ai-systems): add comprehensive LLM inference documentationxiaocheng··
7c98505