AI 系统
AI 系统
GPU 计算、分布式训练、Profiling、框架与推理优化
Agentic Infrastructure
1AMX
1Distributed Training
3Gpu Computing
7sm core.excalidraw
README
CUDA Agent
论文精读 — CUDA Agent 通过大规模 Agentic 强化学习系统,让 LLM 学会自主编写和优化 CUDA kernel,在 KernelBench 上全面超越 torch.compile 和顶级闭源模型
PTX 技术详解
深入解析 NVIDIA PTX 中间表示语言,涵盖 GPU 架构、SIMT 执行模型、编译流程及性能优化
SAC: Sharing-Aware Caching in Multi-Chip GPUs
论文精读 — SAC 通过动态重配置 LLC 路由策略,根据跨芯片数据共享特征在 memory-side 和 SM-side LLC 组织方式间切换,在多芯片 GPU 上实现平均 63% 的性能提升
GPU Communication
GPU Architecture Deep Dive
系统性解析现代GPU架构设计原理,涵盖SIMT执行模型、SM微架构、内存层次结构及线程调度机制
Llm Inference
7Compute-bound vs Memory-bound:推理的两大瓶颈
深入理解 Prefill 阶段的算力瓶颈与 Decode 阶段的带宽瓶颈,掌握 Roofline 模型分析推理性能
KV Cache:推理性能的命根子
深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制,以及长文本推理中的 KV 管理策略
批处理与调度:推理服务的灵魂
从静态批处理到连续批处理,理解 LLM 推理服务如何通过调度策略最大化 GPU 利用率
量化:INT8 / INT4 / FP8 到底在干嘛
理解量化的本质、各精度格式的区别、主流量化方法(GPTQ/AWQ/GGUF)对比,以及量化对 prefill/decode 的加速原理
投机解码:突破 decode 一次只出一个 token 的限制
理解投机解码的原理、为什么能保证输出质量不变、主流变体(Draft Model / EAGLE / Medusa)对比
推理引擎架构:vLLM / TensorRT-LLM / SGLang
对比主流推理引擎的架构设计、核心优化技术(FlashAttention/FlashDecode/Kernel Fusion),以及选型指南
LLM 推理优化学习路线
LLM 推理优化完整学习路线,从 KV Cache 到推理引擎架构,6 个模块系统掌握推理工程
Profiling
9AWP 六维 Breakdown 框架与能力体系摘要
对 AWP 平台规模化 Profiling 驱动的 GPU 效率六维 Breakdown 框架与四级能力体系的摘要
LLM 推理性能优化与 GPU 利用率提升摘要
对 LLM 推理性能优化全链路方法论的摘要,覆盖根因诊断、AWP Profiling 定位、六层优化方案与业界案例
GPU Trace 时间分解与通信计算重叠分析
详解 GPU 性能分析中的区间合并、扫描线算法原理,以及 Temporal Breakdown 和 Overlap Analysis 两个核心分析模块的计算逻辑
Cprof C++ Profiling 核心技术
Temporal Breakdown 计算分析
HTA 算法原理与实现
深入分析 Holistic Trace Analysis (HTA) 的核心算法原理、数据结构设计和关键实现细节。
NVTX 原理分析
Critical Path of AI Trace
GPU kernel trace/timeline 的关键路径算法原理、业界工具实践(HTA / NCU / NSYS)及实现思路。
Python AI Profiling
Reasoning
302. Reasoning Model、Agent 与长任务
reasoning model 和普通模型有什么区别?为什么模型知道很多却一推就错?为什么接上工具后小模型短任务聪明、长任务却容易崩?
01. 什么是 AI 推理
从新手视角解释 AI 推理的基本概念:推理和记忆的区别、token 生成与推理的关系、演绎归纳溯因,以及什么样的问题真正考验推理。
03. RAG、Memory、Fine-tuning 与 Distillation
梳理 RAG、memory、session summary、fine-tuning、post-training、distillation 的区别,以及什么时候该用什么方案。