LLM 推理优化学习路线
LLM 推理优化完整学习路线,从 KV Cache 到推理引擎架构,6 个模块系统掌握推理工程
共 132 篇文章
LLM 推理优化完整学习路线,从 KV Cache 到推理引擎架构,6 个模块系统掌握推理工程
深入理解 Prefill 阶段的算力瓶颈与 Decode 阶段的带宽瓶颈,掌握 Roofline 模型分析推理性能
理解量化的本质、各精度格式的区别、主流量化方法(GPTQ/AWQ/GGUF)对比,以及量化对 prefill/decode 的加速原理
从静态批处理到连续批处理,理解 LLM 推理服务如何通过调度策略最大化 GPU 利用率
对比主流推理引擎的架构设计、核心优化技术(FlashAttention/FlashDecode/Kernel Fusion),以及选型指南
深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制,以及长文本推理中的 KV 管理策略
理解投机解码的原理、为什么能保证输出质量不变、主流变体(Draft Model / EAGLE / Medusa)对比