Llm Inference

7 篇文章

文章

LLM 推理优化完整学习路线，从 KV Cache 到推理引擎架构，6 个模块系统掌握推理工程

深入理解 Prefill 阶段的算力瓶颈与 Decode 阶段的带宽瓶颈，掌握 Roofline 模型分析推理性能

理解量化的本质、各精度格式的区别、主流量化方法（GPTQ/AWQ/GGUF）对比，以及量化对 prefill/decode 的加速原理

从静态批处理到连续批处理，理解 LLM 推理服务如何通过调度策略最大化 GPU 利用率

对比主流推理引擎的架构设计、核心优化技术（FlashAttention/FlashDecode/Kernel Fusion），以及选型指南

深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制，以及长文本推理中的 KV 管理策略

理解投机解码的原理、为什么能保证输出质量不变、主流变体（Draft Model / EAGLE / Medusa）对比