Gpu Computing

5 篇文章

文章

论文精读 — CUDA Agent 通过大规模 Agentic 强化学习系统，让 LLM 学会自主编写和优化 CUDA kernel，在 KernelBench 上全面超越 torch.compile 和顶级闭源模型

深入解析 NVIDIA PTX 中间表示语言，涵盖 GPU 架构、SIMT 执行模型、编译流程及性能优化

论文精读 — SAC 通过动态重配置 LLC 路由策略，根据跨芯片数据共享特征在 memory-side 和 SM-side LLC 组织方式间切换，在多芯片 GPU 上实现平均 63% 的性能提升

NVLink、NVSwitch 与 GPU 间高速互连通信技术

系统性解析现代GPU架构设计原理，涵盖SIMT执行模型、SM微架构、内存层次结构及线程调度机制