时间线

共 143 篇文章 · 按发布时间倒序

本月发布

2026 年

总数

143

2026

五月

Zsh 一键复刻配置

一份可一键复刻的 Zsh / Oh-My-Zsh 配置：插件、主题、别名与跨机迁移脚本。

5/20

工具箱

四月

02. Reasoning Model、Agent 与长任务

reasoning model 和普通模型有什么区别？为什么模型知道很多却一推就错？为什么接上工具后小模型短任务聪明、长任务却容易崩？

4/21

AI 系统

01. 什么是 AI 推理

从新手视角解释 AI 推理的基本概念：推理和记忆的区别、token 生成与推理的关系、演绎归纳溯因，以及什么样的问题真正考验推理。

4/21

AI 系统

AI 推理入门：从 token 生成到 reasoning model、RAG 与 Agent

从新手视角梳理 AI 推理的核心概念：推理与记忆的区别、思维链、reasoning model、RAG、memory、fine-tuning、distillation，以及推理能力和 agent 能力的关系。

4/21

AI 系统

03. RAG、Memory、Fine-tuning 与 Distillation

梳理 RAG、memory、session summary、fine-tuning、post-training、distillation 的区别，以及什么时候该用什么方案。

4/21

AI 系统

AI 推理系列总览

AI 推理系列文章总览，从基础概念到 reasoning model、Agent、RAG、fine-tuning 与蒸馏，按主题持续迭代。

4/21

AI 系统

AWP 六维 Breakdown 框架与能力体系摘要

对 AWP 平台规模化 Profiling 驱动的 GPU 效率六维 Breakdown 框架与四级能力体系的摘要

4/10

AI 系统

LLM 推理性能优化与 GPU 利用率提升摘要

对 LLM 推理性能优化全链路方法论的摘要，覆盖根因诊断、AWP Profiling 定位、六层优化方案与业界案例

4/10

AI 系统

GPU Trace 时间分解与通信计算重叠分析

详解 GPU 性能分析中的区间合并、扫描线算法原理，以及 Temporal Breakdown 和 Overlap Analysis 两个核心分析模块的计算逻辑

4/2

AI 系统

三月

OpenClaw 完全指南：从入门到多代理架构

OpenClaw 自托管 AI 网关的完整学习笔记，涵盖架构协议、配置详解、聊天通道、工具系统、Skills 技能、会话管理、多代理路由、插件系统、模型安全、CLI 速查，以及 AWP Task DAG 与 learn-claude-code 的深度对比分析

3/27

AI 系统

CUDA Agent

论文精读 — CUDA Agent 通过大规模 Agentic 强化学习系统，让 LLM 学会自主编写和优化 CUDA kernel，在 KernelBench 上全面超越 torch.compile 和顶级闭源模型

3/25

AI 系统

Compute-bound vs Memory-bound：推理的两大瓶颈

深入理解 Prefill 阶段的算力瓶颈与 Decode 阶段的带宽瓶颈，掌握 Roofline 模型分析推理性能

3/13

AI 系统

KV Cache：推理性能的命根子

深入理解 KV Cache 的本质、内存计算公式、PagedAttention 分页机制，以及长文本推理中的 KV 管理策略

3/13

AI 系统

批处理与调度：推理服务的灵魂

从静态批处理到连续批处理，理解 LLM 推理服务如何通过调度策略最大化 GPU 利用率

3/13

AI 系统

量化：INT8 / INT4 / FP8 到底在干嘛

理解量化的本质、各精度格式的区别、主流量化方法（GPTQ/AWQ/GGUF）对比，以及量化对 prefill/decode 的加速原理

3/13

AI 系统

投机解码：突破 decode 一次只出一个 token 的限制

理解投机解码的原理、为什么能保证输出质量不变、主流变体（Draft Model / EAGLE / Medusa）对比

3/13

AI 系统

推理引擎架构：vLLM / TensorRT-LLM / SGLang

对比主流推理引擎的架构设计、核心优化技术（FlashAttention/FlashDecode/Kernel Fusion），以及选型指南

3/13

AI 系统

LLM 推理优化学习路线

LLM 推理优化完整学习路线，从 KV Cache 到推理引擎架构，6 个模块系统掌握推理工程

3/13

AI 系统

Cprof C++ Profiling 核心技术

3/12

AI 系统

二月

Dynamic Batching 分析

2/1

AI 系统

一月

Temporal Breakdown 计算分析

1/28

AI 系统

HTA 算法原理与实现

深入分析 Holistic Trace Analysis (HTA) 的核心算法原理、数据结构设计和关键实现细节。

1/18

AI 系统

stage2 analysis

1/15

AI 系统

NVTX 原理分析

1/12

AI 系统

Critical Path of AI Trace

GPU kernel trace/timeline 的关键路径算法原理、业界工具实践（HTA / NCU / NSYS）及实现思路。

1/4

AI 系统

2025

十一月

PTX 技术详解

深入解析 NVIDIA PTX 中间表示语言，涵盖 GPU 架构、SIMT 执行模型、编译流程及性能优化

11/8

AI 系统

十月

nccl-test run

10/15

AI 系统

九月

Megatron & Parallel

9/18

AI 系统

七月

OpenVino

7/14

AI 系统

六月

Python AI Profiling

6/27

AI 系统

AMX 指令

6/16

计算机架构

五月

AMD IBS

5/7

计算机架构

四月

Java 反射：全面解析

4/17

编程基础

三月

MMU

3/31

计算机架构

SAC: Sharing-Aware Caching in Multi-Chip GPUs

论文精读 — SAC 通过动态重配置 LLC 路由策略，根据跨芯片数据共享特征在 memory-side 和 SM-side LLC 组织方式间切换，在多芯片 GPU 上实现平均 63% 的性能提升

3/27

AI 系统

GPU Architecture Deep Dive

系统性解析现代GPU架构设计原理，涵盖SIMT执行模型、SM微架构、内存层次结构及线程调度机制

3/6

AI 系统

2024

十二月

深入解析 G1 GC

12/18

编程基础

JVM Memory

12/15

编程基础

八月

JVM Inst

8/29

编程基础

三月

Code Snappet

3/21

编程基础

2023

七月

Binder Parcel

7/31

编程基础

Linux Command

7/19

计算机架构

Binder 内存管理

7/18

编程基础

六月

Tick in Idle

6/25

计算机架构

RCU

6/25

计算机架构

Binder Phases

6/25

编程基础

IPC Binder 之杂谈

6/19

编程基础

Research on Binder

6/7

编程基础

三月

Idle

3/16

计算机架构

二月

Bat Script

2/11

工具箱

一月

Adb Command And Script

1/12

编程基础

2022

十二月

ISA: Arm In-line Assembly

12/3

计算机架构

十一月

Java GC - Concurrent Copying(Art)

11/28

编程基础

十月

ART Create

10/28

编程基础

ART dex2oat

10/28

编程基础

ART JNI

10/27

编程基础

JAVA 虚拟机 ART 研究（杂谈）

10/17

工具箱

JAVA 虚拟机 ART 研究（杂谈）

10/17

编程基础

JVM_MEMORY

10/11

工具箱

ISA: ARM Instructions Set

10/10

计算机架构

Linkers & Loaders

10/9

计算机架构

九月

Itertools

9/27

编程基础

八月

Numa and Socket

8/25

计算机架构

Virtual Memory and Page

8/25

计算机架构

JAVA GC 研究

8/24

工具箱

JAVA 虚拟机 ART 研究

8/24

工具箱

JAVA 虚拟机 ART 研究

8/24

编程基础

Pipeline

8/24

计算机架构

六月

I2C & I3C Bus

6/20

计算机架构

五月

Notifier Chain

5/15

计算机架构

BL3-1 ARM Trusted Firmware

5/10

计算机架构

四月

Thermal (2) - Thermal Init

4/28

计算机架构

Binary Tree

4/27

编程基础

Thermal (3) - init.h in Thermal

4/26

计算机架构

Thermal (1) - Thermal Overview

4/14

计算机架构

XV6 (6.828)

4/13

计算机架构

spring

4/10

工具箱

二月

HashMap

2/7

编程基础

Linked List

2/7

编程基础

Tree

2/7

编程基础

2021

十月

Soft Skills - The Software Developer's Lift Manual

10/24

工具箱

九月

OO & Class

9/5

编程基础

五月

Blog Update Plan

5/26

工具箱

Knapsack

5/22

编程基础

二月

Python File

2/23

编程基础

一月

Backtrack

1/15

编程基础

2020

七月

Hash Map & Dict

7/12

编程基础

五月

Paper Report

5/15

工具箱

Git

5/14

工具箱

Vim 使用入门

5/14

工具箱

四月

深度实践 KVM -- KVM 技术详解与实战

4/26

工具箱

三月

Huawei Cloud 入门

3/27

工具箱

LaTeX 用法和语法总结

3/10

工具箱

2019

十二月

virtualenv&Visdom

12/20

编程基础

OpenCV

12/10

工具箱

十一月

HTTP and HTTP/2

11/11

工具箱

九月

Node.js 安装和 yarn 包管理

9/17

工具箱

MySql 基础总结

9/14

工具箱

Python ORM - peewee

9/14

工具箱

Binary Search

9/12

编程基础

YOLO and DarkNet

9/10

工具箱

LCS

9/4

编程基础

Stack

9/4

编程基础

Redis and redis-py

9/3

工具箱

String

9/3

编程基础

八月

I/O

8/20

编程基础

TCP/IP 总结

8/11

工具箱

Crontab

8/11

编程基础

Coroutines

8/10

编程基础

Docker 入门

8/8

工具箱

C 语言 socket 实现以及 Epoll, Libevent

8/8

工具箱

六月

Vue.js 总结

6/14

工具箱

Openresty 基础总结

6/10

工具箱

Nginx 基础总结

6/10

工具箱

五月

Charts.js

5/15

工具箱

四月

CSS

4/28

工具箱

JS code - JavaScript 常见语法

4/28

工具箱

2018

十二月

RF-Pose

12/10

工具箱

十一月

QQ 自动聊天机器人

11/10

工具箱

九月

apt source

9/8

计算机架构

八月

Celery：分布式消息传输的异步任务队列

8/10

工具箱

Flask

8/10

工具箱

MongoDB Database

8/8

工具箱

七月

Linux Text Editor：Kilo, C

7/10

工具箱

六月

Information and Theory - An improved mOPE coding method

6/10

工具箱

Linux Kernel Build：Linux 内核编译

6/8

工具箱

五月

Vuepress Blog Guide

5/10

工具箱

二月

Splicer

2/10

工具箱

2017

十二月

TensorFlow 入门

12/10

工具箱

Tensorflow I/O

12/10

工具箱

十一月

Jekyll GitHub Pages Blog

11/10

工具箱

十月

Linux 包管理：Snap

10/10

工具箱

ArrayTrack

10/10

工具箱

九月

CSI Tool

9/10

工具箱

六月

编程生涯总结 - weigaochen

6/14

工具箱

Linux 进程和线程

6/8

工具箱

三月

MNIST 手写数字识别

3/10

工具箱

一月

The Zen of Python

1/1

工具箱

2026

五月

Zsh 一键复刻配置

四月

02. Reasoning Model、Agent 与长任务

01. 什么是 AI 推理

AI 推理入门：从 token 生成到 reasoning model、RAG 与 Agent

03. RAG、Memory、Fine-tuning 与 Distillation

AI 推理系列总览

AWP 六维 Breakdown 框架与能力体系摘要

LLM 推理性能优化与 GPU 利用率提升摘要

GPU Trace 时间分解与通信计算重叠分析

三月

OpenClaw 完全指南：从入门到多代理架构

CUDA Agent

Compute-bound vs Memory-bound：推理的两大瓶颈

KV Cache：推理性能的命根子

批处理与调度：推理服务的灵魂

量化：INT8 / INT4 / FP8 到底在干嘛

投机解码：突破 decode 一次只出一个 token 的限制

推理引擎架构：vLLM / TensorRT-LLM / SGLang

LLM 推理优化学习路线

Cprof C++ Profiling 核心技术

二月

Dynamic Batching 分析

一月

Temporal Breakdown 计算分析

HTA 算法原理与实现

stage2 analysis

NVTX 原理分析

Critical Path of AI Trace

2025

十一月

PTX 技术详解

十月

nccl-test run

九月

Megatron & Parallel

七月

OpenVino

六月

Python AI Profiling

AMX 指令

五月

AMD IBS

四月

Java 反射：全面解析

三月

MMU

SAC: Sharing-Aware Caching in Multi-Chip GPUs

GPU Communication

Pthread

Instructions of x86

THP

Cache

GPU Architecture Deep Dive

2024

十二月

深入解析 G1 GC

JVM Memory

八月

JVM Inst

三月

Code Snappet

2023

七月

Binder Parcel

Linux Command

Binder 内存管理

六月

Tick in Idle

RCU

Binder Phases

IPC Binder 之杂谈

Research on Binder

三月

Idle

二月

Bat Script

一月