index
约 1 分钟阅读
Distributed Training
分布式训练技术和大规模模型训练。
📚 现有文档
- Megatron Parallel - Megatron 并行策略
- NCCL Test - NCCL 通信测试
🔧 主题概览
1. 并行策略
Data Parallelism
- DistributedDataParallel (DDP) - PyTorch 数据并行
- Horovod - 跨框架分布式训练
- Parameter Server - 参数服务器架构
Model Parallelism
- Pipeline Parallelism - 流水线并行
- Tensor Parallelism - 张量并行
- Sequence Parallelism - 序列并行
Advanced Techniques
- 3D Parallelism - 三维并行策略
- Expert Parallelism - 专家并行 (MoE)
- Gradient Compression - 梯度压缩
2. 大模型训练
Training Systems
- DeepSpeed - Microsoft 分布式训练
- FairScale - Facebook 可扩展训练
- Megatron-LM - NVIDIA 大模型训练
Communication Optimization
- NCCL - NVIDIA 集合通信库
- Gloo - Facebook 通信库
- MPI - 消息传递接口
3. 集群管理
- Kubernetes for ML - K8s 机器学习部署
- Slurm - 作业调度系统
- Ray - 分布式计算框架
修改历史6 次提交
- refactor: reorganize documentation structure and update Navbar componentxiaocheng··
2fb8f42 - chore(project): clean up obsolete configuration and build artifactsxiaocheng··
3574bd3 - update postsweigao.cwg@alibaba-inc.com··
7642737 - add nccl-test docsweigao.cwg@alibaba-inc.com··
218c19e - refactor AI postxiaocheng··
a5a7637
相关阅读
基于标签与分类02. Reasoning Model、Agent 与长任务
reasoning model 和普通模型有什么区别?为什么模型知道很多却一推就错?为什么接上工具后小模型短任务聪明、长任务却容易崩?
AI 系统
01. 什么是 AI 推理
从新手视角解释 AI 推理的基本概念:推理和记忆的区别、token 生成与推理的关系、演绎归纳溯因,以及什么样的问题真正考验推理。
AI 系统
AI 推理入门:从 token 生成到 reasoning model、RAG 与 Agent
从新手视角梳理 AI 推理的核心概念:推理与记忆的区别、思维链、reasoning model、RAG、memory、fine-tuning、distillation,以及推理能力和 agent 能力的关系。
AI 系统