Zsh 一键复刻配置
一份可一键复刻的 Zsh / Oh-My-Zsh 配置:插件、主题、别名与跨机迁移脚本。
共 143 篇文章 · 按发布时间倒序
reasoning model 和普通模型有什么区别?为什么模型知道很多却一推就错?为什么接上工具后小模型短任务聪明、长任务却容易崩?
从新手视角解释 AI 推理的基本概念:推理和记忆的区别、token 生成与推理的关系、演绎归纳溯因,以及什么样的问题真正考验推理。
从新手视角梳理 AI 推理的核心概念:推理与记忆的区别、思维链、reasoning model、RAG、memory、fine-tuning、distillation,以及推理能力和 agent 能力的关系。
梳理 RAG、memory、session summary、fine-tuning、post-training、distillation 的区别,以及什么时候该用什么方案。
AI 推理系列文章总览,从基础概念到 reasoning model、Agent、RAG、fine-tuning 与蒸馏,按主题持续迭代。
对 AWP 平台规模化 Profiling 驱动的 GPU 效率六维 Breakdown 框架与四级能力体系的摘要
对 LLM 推理性能优化全链路方法论的摘要,覆盖根因诊断、AWP Profiling 定位、六层优化方案与业界案例
详解 GPU 性能分析中的区间合并、扫描线算法原理,以及 Temporal Breakdown 和 Overlap Analysis 两个核心分析模块的计算逻辑
OpenClaw 自托管 AI 网关的完整学习笔记,涵盖架构协议、配置详解、聊天通道、工具系统、Skills 技能、会话管理、多代理路由、插件系统、模型安全、CLI 速查,以及 AWP Task DAG 与 learn-claude-code 的深度对比分析
论文精读 — CUDA Agent 通过大规模 Agentic 强化学习系统,让 LLM 学会自主编写和优化 CUDA kernel,在 KernelBench 上全面超越 torch.compile 和顶级闭源模型
深入理解 Prefill 阶段的算力瓶颈与 Decode 阶段的带宽瓶颈,掌握 Roofline 模型分析推理性能
深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制,以及长文本推理中的 KV 管理策略
从静态批处理到连续批处理,理解 LLM 推理服务如何通过调度策略最大化 GPU 利用率
理解量化的本质、各精度格式的区别、主流量化方法(GPTQ/AWQ/GGUF)对比,以及量化对 prefill/decode 的加速原理
理解投机解码的原理、为什么能保证输出质量不变、主流变体(Draft Model / EAGLE / Medusa)对比
对比主流推理引擎的架构设计、核心优化技术(FlashAttention/FlashDecode/Kernel Fusion),以及选型指南
LLM 推理优化完整学习路线,从 KV Cache 到推理引擎架构,6 个模块系统掌握推理工程
论文精读 — SAC 通过动态重配置 LLC 路由策略,根据跨芯片数据共享特征在 memory-side 和 SM-side LLC 组织方式间切换,在多芯片 GPU 上实现平均 63% 的性能提升
系统性解析现代GPU架构设计原理,涵盖SIMT执行模型、SM微架构、内存层次结构及线程调度机制