Llm Inference
Llm Inference
7 篇文章
文章
01
LLM 推理优化学习路线
LLM 推理优化完整学习路线,从 KV Cache 到推理引擎架构,6 个模块系统掌握推理工程
02
Compute-bound vs Memory-bound:推理的两大瓶颈
深入理解 Prefill 阶段的算力瓶颈与 Decode 阶段的带宽瓶颈,掌握 Roofline 模型分析推理性能
03
量化:INT8 / INT4 / FP8 到底在干嘛
理解量化的本质、各精度格式的区别、主流量化方法(GPTQ/AWQ/GGUF)对比,以及量化对 prefill/decode 的加速原理
04
批处理与调度:推理服务的灵魂
从静态批处理到连续批处理,理解 LLM 推理服务如何通过调度策略最大化 GPU 利用率
05
推理引擎架构:vLLM / TensorRT-LLM / SGLang
对比主流推理引擎的架构设计、核心优化技术(FlashAttention/FlashDecode/Kernel Fusion),以及选型指南
06
KV Cache:推理性能的命根子
深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制,以及长文本推理中的 KV 管理策略
07
投机解码:突破 decode 一次只出一个 token 的限制
理解投机解码的原理、为什么能保证输出质量不变、主流变体(Draft Model / EAGLE / Medusa)对比