跳转到主要内容

LLM 推理优化学习路线

学习路线总览

基于你已经掌握 prefill/decode/forward 流程的基础,按以下顺序学习:

① KV Cache          → ② 性能瓶颈分析    → ③ 量化
   (内存命根子)         (Compute/Memory)     (INT4/INT8/FP8)
        │                    │                    │
        └────────────────────┼────────────────────┘

④ 批处理与调度       → ⑤ 投机解码        → ⑥ 推理引擎
   (Continuous Batch)    (Speculative)       (vLLM 源码)

文件索引

序号文件核心内容
01KV Cache内存计算公式、MHA/GQA、PagedAttention、长文本策略
02Compute vs Memory BoundRoofline 模型、Prefill 算力瓶颈、Decode 带宽瓶颈
03量化数据格式、GPTQ/AWQ/GGUF 对比、分组量化
04批处理与调度静态/动态/连续批处理、Chunked Prefill、分离调度
05投机解码Draft-Verify 流程、EAGLE/Medusa、无损加速证明
06推理引擎vLLM/TRT-LLM/SGLang 架构、FlashAttention、并行策略

一句话路线图

KV Cache 显存计算 → Prefill/Decode 瓶颈 → 量化原理 → 动态批处理 → 投机解码 → 看 vLLM 源码

修改历史1 次提交