AWP 六维 Breakdown 框架与能力体系摘要
对 AWP 平台规模化 Profiling 驱动的 GPU 效率六维 Breakdown 框架与四级能力体系的摘要
共 137 篇文章
OpenClaw 自托管 AI 网关的完整学习笔记,涵盖架构协议、配置详解、聊天通道、工具系统、Skills 技能、会话管理、多代理路由、插件系统、模型安全、CLI 速查,以及 AWP Task DAG 与 learn-claude-code 的深度对比分析
论文精读 — CUDA Agent 通过大规模 Agentic 强化学习系统,让 LLM 学会自主编写和优化 CUDA kernel,在 KernelBench 上全面超越 torch.compile 和顶级闭源模型
深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制,以及长文本推理中的 KV 管理策略
深入理解 Prefill 阶段的算力瓶颈与 Decode 阶段的带宽瓶颈,掌握 Roofline 模型分析推理性能
理解量化的本质、各精度格式的区别、主流量化方法(GPTQ/AWQ/GGUF)对比,以及量化对 prefill/decode 的加速原理
从静态批处理到连续批处理,理解 LLM 推理服务如何通过调度策略最大化 GPU 利用率
理解投机解码的原理、为什么能保证输出质量不变、主流变体(Draft Model / EAGLE / Medusa)对比
对比主流推理引擎的架构设计、核心优化技术(FlashAttention/FlashDecode/Kernel Fusion),以及选型指南
LLM 推理优化完整学习路线,从 KV Cache 到推理引擎架构,6 个模块系统掌握推理工程