Agentic AWP:规模化 Profiling 驱动的 GPU 效率 Breakdown 与能力体系
一句话摘要
AWP 的核心价值不是告诉用户「GPU 利用率低」,而是基于六维正交 Breakdown 框架(访存/计算/显存/框架/调度/通信)和 L0→L3 分层能力体系,量化每项效率损失的贡献比例并给出归因路径——优化的前提是度量,度量的前提是 Breakdown。
关键要点
- 核心命题:单一利用率指标(SM Active、MFU)不可操作;必须按 MECE 原则将 GPU 时间穷尽分解到正交维度,按头部原因排序优化。
- 六维 Breakdown 框架(D1-D6):每个维度对应一条独立物理资源(HBM 带宽 / Tensor Core / HBM 容量 / CPU+API 延迟 / 请求到达模式 / NVLink·IB 带宽),可独立优化、互不掩盖。
- 典型贡献占比(线上预估):D1 访存 35-50%(Decode 主导)、D2 计算低效 10-20%、D3 显存间接 10-25%、D4 框架 10-25%(小 Batch 致命)、D5 调度 5-15%、D6 通信 5-25%(TP≥4 或跨节点)。
- D3 是间接维度:显存容量不直接消耗时间,而是通过约束 Batch Size 间接放大 D1(访存等待)占比——这是六维框架与「物理时间分解」的关键差异。
- D5/D6 独立性论证:调度(请求到达模式)与通信(互联带宽)对应完全不同的物理资源和优化路径,必须分维度核算;单卡部署 D6=0 但 D5 仍存在。
- AWP 四级能力体系:
- L0 常驻遥测(<1% 开销,7×24,回答「有没有问题」)
- L1 按需深度 Profiling(5-15% 开销,触发式,回答「根因是什么」)
- L2 Breakdown 分析(核心交付,输出六维归因报告 + 集群热力图 + 跨维度因果链)
- L3 自动化闭环(异常自动归因 → 方案推荐 → A/B 验证 → 回归防护)
- L1 精准打击设计:异常节点 + 同组对照 + 随机采样 5%,避免全量 trace 带来的存储和性能开销;原始 trace 仅保留 7 天,结构化结果长期归档。
- 报告交付物范式:报告以「饼图 + 子项分解 + Top-3 可操作建议(含预期收益与实施复杂度)」结构呈现,例如「访存 43.5% 中 28.1% 是权重读取 → 建议 FP8 量化,预期 +40-60% 吞吐」。
- 跨维度因果链:例如「D3 显存不足 → Batch 缩小 → D1 访存占比上升 → 吞吐下降 40%」,AWP L2 需通过规则引擎 + 统计关联自动识别。
- 集群级浪费分类:参考 NVIDIA「硬件不可用 / 健康未占用 / 已占用但计算空闲 / 占用但 IO 等待」四类体系,其中第三类最常见,是 L1 自动触发的核心场景。
- 规模化要求:单机 Profiling 只能解决「这一次请求」的问题;规模化 Profiling 才能回答统计显著性、异构性(Straggler)、负载相关性、时间退化趋势、归因到模型/租户/配置。
- 建设路线图:Phase 1 L0+L1 Kernel Trace → Phase 2 Roofline + NCCL Trace → Phase 3 六维 Breakdown 报告(核心里程碑) → Phase 4 跨维度关联 + 自动归因 → Phase 5 完整 L3 闭环。
核心论点与数据
- 量化驱动:核心等式
GPU 总时间 = T_effective_compute + T_mem + T_compute_waste + T_mem_cap_indirect + T_framework + T_scheduling + T_comm,只有第一项产出 token,AWP 目标是最大化其占比。 - H100 拐点数据:算术强度拐点 ≈ 295 FLOPs/Byte;70B FP16 在 batch=1 时 AI ≈ 1(远低于拐点),batch=32 时 AI ≈ 30,量化 INT8 时 AI ≈ 60——验证「增大 Batch + 量化」对访存维度的双重杠杆。
- 显存间接损失公式:
间接效率损失 = 1 - (actual_batch_throughput / optimal_batch_throughput);H100 上 70B 模型理想 batch≈150+,实际受限 batch=16 时损失可达 60-70%。 - 典型场景案例:
- Decode 吞吐不达标:根因链「KV Cache 占用过大(D3) → Batch=8 → 访存主导(D1) 48%」 → P0 KV Cache FP8 + CUDA Graphs,预期吞吐 2.5-3x。
- TPOT P99 飙升 7.2x:P99 请求中调度损失从 18%→55%,其中 Prefill 干扰占 38% → Chunked Prefill / 分离部署。
- 1000 GPU 集群整体 SM Active 22%:分类后 B 类(48%)按子根因(负载/内存/框架/通信)分别优化,C 类(20%)缩容回收 → 整体 SM Active 22%→38%+。
与现有 wiki 的关联
- 与 AWP 六维 Breakdown 框架与能力体系摘要 同源(4-10 版),本页是 5-25 重摄入,结构上更紧凑、Top 案例更突出。
- 姊妹文档(优化手册侧):Agentic Infra-LLM 推理优化摘要,前者「损失在哪里」、后者「如何优化」。
- 上游知识:AI Profiling 总览、Temporal Breakdown、关键路径分析、GPU Trace 分析、HTA。
- D1/D2 维度:Compute vs Memory Bound、KV Cache、量化。
- D5 维度:Batching 与调度、Dynamic Batching。
- D6 维度:GPU 通信、NCCL 测试、Megatron 并行。
可借鉴的工程实践
- 「先 Breakdown,再优化」流程化:所有性能工单先输出六维占比饼图,再讨论优化方案;禁止「凭感觉调参」。
- MECE 框架自检:评估任何新指标是否能映射到现有六维之一;若不能则审视维度定义而非新增散点指标。
- L0→L1 触发规则化:把异常检测规则(SM Active <50% 基线、TPOT P99 >2x、HBM >90% 持续 5min 等)做成配置项,避免 SRE 手动决策。
- 能力建设按 Phase 推进:Phase 3 「六维 Breakdown 报告」作为核心里程碑,前两阶段都是为它积累数据底座。
- 报告范式化:每份 Breakdown 报告固定结构:分解饼图 → 子项明细 → 跨维度因果链 → Top-3 建议(预期收益 + 复杂度 ⭐)。
- A/B 副作用检测:优化推荐落地后,AWP 自动对比多维指标,防止「吞吐+但 P99 恶化」「延迟-但 OOM 风险↑」等隐性副作用。
← 被以下页面引用(2)
- Agentic Infra:LLM 推理性能优化与 GPU 利用率提升ai-systems · source-summary
- AWP 六维 Breakdown 框架与能力体系摘要ai-systems · source-summary
修改历史
修改历史1 次提交
- fix(wiki): clean all lint errors to enable strict CI (PR-3)xiaocheng··
75375ef