AI 系统

GPU 计算、分布式训练、Profiling、框架与推理优化

51 篇文章

LLM 推理 22 学习路径顺序 · 日期为更新时间

LLM 推理系统全栈综合分析 5月25日 KV Cache：推理性能的命根子 3月13日 Compute-bound vs Memory-bound：推理的两大瓶颈 3月13日量化：INT8 / INT4 / FP8 到底在干嘛 3月13日批处理与调度：推理服务的灵魂 3月13日投机解码：突破 decode 一次只出一个 token 的限制 3月13日推理引擎架构：vLLM / TensorRT-LLM / SGLang 3月13日 GDN 与 Chunked Prefill：为什么 prepare_chunk_indices 会出现在 trace 里 7月9日 Token Flow 与 Hidden State：从 Attention 到 LM Head 6月30日 Causal Attention：为什么 KV hit 后 Attention 按 1 - h² 缩放 6月15日 MoE 推理：Expert 并行、显存与调度机制 7月10日 Prefill Trace：Worker 供给、DSA/MLA 与 Chunked Prefill 7月10日 DeepSeek MLA：低秩 KV Cache 与推理效率 7月6日 Chunked Prefill 深入分析：调度、Chunk Size 与 Attention 形状 7月2日推理框架对比 2026：从 Engine 到 Serving Stack 7月1日 DSpark 与 MTP：DeepSeek 投机解码调研 6月29日 KV Cache Hit Ratio 修正模型：从直觉到统一公式 6月15日模拟器建模指南：显存与吞吐公式 6月1日 CSA/HCA 注意力：DeepSeek-V4 的混合压缩稀疏机制 6月1日 FP4/FP8 量化：低精度推理的存储与计算 6月1日 DeepSeek-V3 Technical Report：中英对照解读 6月29日 Agentic Infra：LLM 推理性能优化与 GPU 利用率提升 5月25日

性能分析 14

从 Profiling 到 Simulation：推理性能分析的证据链方法 7月11日 Critical Path of AI Trace 1月4日 Temporal Breakdown 计算分析 1月28日 GPU Trace 时间分解与通信计算重叠分析 4月2日 NVTX 原理分析 1月12日 HTA 算法原理与实现 1月18日 Cprof C++ Profiling 核心技术 3月12日 Python AI Profiling 6月27日 AMD MI308X 单卡 Profile 分析摘要（kernel_launch_bound 主导） 6月1日 FT vs VLLM vs SGLang 推理框架对比摘要 6月1日 H20 批量归因分析报告摘要 6月1日 Agentic AWP：规模化 Profiling 驱动的 GPU 效率 Breakdown 与能力体系 5月25日 AWP 六维 Breakdown 框架与能力体系摘要 4月10日 LLM 推理性能优化与 GPU 利用率提升摘要 4月10日

GPU 计算 5

GPU Architecture Deep Dive 3月6日 GPU Communication 3月21日 PTX 技术详解 11月8日 CUDA Agent 3月25日 SAC: Sharing-Aware Caching in Multi-Chip GPUs 3月27日

推理 3

01. 什么是 AI 推理 4月21日 02. Reasoning Model、Agent 与长任务 4月21日 03. RAG、Memory、Fine-tuning 与 Distillation 4月21日

分布式训练 3

Megatron & Parallel 9月18日 nccl-test run 10月15日 Gavel: Heterogeneity-Aware Cluster Scheduling (OSDI'20) 5月25日

训练框架 2

Dynamic Batching 分析 2月1日 stage2 analysis 1月15日

Agentic Infra 1

OpenClaw 完全指南：从入门到多代理架构 3月27日

AMX 1

OpenVino 7月14日