FT vs VLLM vs SGLang 推理框架对比摘要

2026年6月1日 · 约 2 分钟阅读

概述

通过 GPUMon 实时采集 GPU kernel timeline trace，使用 zhouyi workflow_1 分析后横向对比 FT（rtp-llm）、VLLM、SGLang 三个推理框架在 AMD MI308X 上的性能特征。实验基于 Qwen3-8B（单卡）和 Qwen3.5-397B MoE（H20 x8）模型。

核心发现

三种瓶颈模式

框架	主瓶颈	模式描述
FT (rtp-llm)	cpu_bound（低负载 73%）	同步调度：每 step 结束 hipStreamSynchronize 等 CPU 调度下一批
VLLM	kernel_launch_bound（55%）	Launch 碎片化：小 kernel 逐个下发，GPU 在 gap 中等待
SGLang	kernel_queue_bound（51%）	Launch 跑在执行前面：CPU 下发太快，kernel 排队等 GPU

关键量化对比（忙碌态）

GPU 利用率：FT 忙碌态 65-67% > VLLM 31-35% > SGLang 26%
CPU 调度效率：SGLang 0.8% cpu_bound（完全异步） > VLLM > FT 低负载态 73%
Kernel Launch 效率：SGLang 0.1% > FT 11.9% > VLLM 28.6%

FT 双态特征

FT 存在两种运行态：

忙碌态（高 QPS）：compute 65-67%，cpu_bound 仅 12-16%
空闲态（低 QPS）：compute 17-18%，cpu_bound 72-74%

FT 非框架本身慢，而是同步调度模式在低负载时暴露为高 cpu_bound。

Kernel 差异

GEMM：FT 的 M 维度为 16（decode batch=1），VLLM 为 192-288（prefill + decode 混合）
Attention：FT 使用自定义 PagedAttention（AIter 库），VLLM 无显式 attention 进 Top5
MoE Fusion：FT 和 SGLang 均有 fused_moe_kernel，VLLM 缺失

框架特征指纹（可用于自动识别）

特征	FT 指纹	VLLM 指纹
忙碌态 compute%	> 60%	< 35%
Top1 idle CPU 栈	`hipStreamSynchronize`	`hipMemcpyAsync` + `hipEventRecord`
独有 kernel	`aiter::pa_` / `rtp_llm::`	无

结论

调度质量：SGLang > FT 忙碌态 >> VLLM
实际 GPU 利用率：FT 忙碌态 > VLLM > SGLang
好的调度是必要条件但非充分条件——SGLang 虽调度最优，但 kernel_queue_bound 和 NCCL 通信拉低了绝对 GPU 利用率

优化建议

框架	措施	预期收益
FT	异步调度（低 QPS 时不 sync 就 launch 下一批）	cpu_bound idle 减 50-70%
VLLM	Kernel fusion + HIP Graph capture	launch_bound 减 50%
VLLM	参考 FT 的自定义 attention 实现	释放隐藏在 idle 里的 compute 潜力

局限性

负载不完全对等（FT 偏 decode-only，VLLM 有 prefill 混合）
SGLang MI308X trace 损坏（ROCm tracer 多卡大模型场景截断 JSON）
MFU 分析不可用（aggregator 不支持 AMD GPU）

相关页面

← 被以下页面引用(4)

Agentic Infra：LLM 推理性能优化与 GPU 利用率提升ai-systems · source-summary
AMD MI308X 单卡 Profile 分析摘要（kernel_launch_bound 主导）ai-systems · source-summary
LLM 推理性能优化与 GPU 利用率提升摘要ai-systems · source-summary
AWP Profiling APItoolbox · entity

修改历史4 次提交

feat(wiki): enforce lifecycle metadata and search aliases
xiaocheng·刚刚·8098d0c
feat(wiki): connect core topics and add reading series
xiaocheng·6 小时前·e947096
feat: SEO + cross-references + Lighthouse fix
xiaocheng·06-09·127a349
feat(wiki): ingest 4 raw articles + split inference survey into 5 pages
xiaocheng·06-07·0521533