关于我们:
欢迎加入盛大人工智能研究院(SARI),研究院致力于成为人工智能创新领域的全球领导者,推动人工智能技术从“copilot”迈向“autopilot”的新时代。研究院专注于大模型以及下一代智能体的前沿探索。我们的使命是突破人工智能技术的边界,开发突破性模型,并推动模型在现实世界的应用和影响力。
此外,我们与天桥脑科学研究院(TCCI)紧密合作,共同推动人工智能与脑科学交叉研究的前沿发展。通过将以大模型为代表的人工智能最新技术成果应用于脑科学研究,助力领域突破;同时,基于脑科学对人脑认知机制的最新洞见,探索下一代人工智能的创新范式。
职位描述
我们正在寻找一位分布式训练框架工程师,负责构建和优化大规模AI训练基础设施,提升大模型训练效率与性能。你将主导分布式训练系统的架构设计与优化,研发高效的计算加速方案,确保系统的扩展性和稳定性,并推动大模型训练策略的持续优化。
岗位职责
1. 分布式训练基础设施开发
o 设计并实现分布式机器学习训练框架,优化数据处理、分布式计算和通信效率。
o 负责AI计算平台的架构与优化,提升系统扩展性和稳定性。
2. 大模型训练优化
o 研发混合并行(TP、PP、DP、MOE等)技术,提高训练吞吐量和计算效率。
o 优化超大规模MOE(MixtureofExperts)训练策略,实现低Drop率、高通信效率的Router设计。
o 设计高效的通信感知(Communication-Aware)计算优化方案,如ParallelLinear。
3. GPU计算加速与工具开发
o 研究GPU加速技术,优化AI计算平台的性能,开发相应的高性能计算工具和库。
o 负责Triton算子优化、CUDAKernel开发及大规模训练加速方案。
4. 超长序列预训练与RLHF训练优化
o 负责128k+超长序列预训练优化,提升Attention计算效率。
o 研究并优化RLHF(PPO训练),提高Training&Generation并行效率,优化KVCacheOffload-Prefetch机制。
5. 性能分析与优化
o 深入分析训练性能,精准定位并解决计算、通信、存储瓶颈,充分挖掘硬件资源潜力。
o 复现并优化最新大模型架构(LLaMA、DeepSeek、InternLM、FLUX等),跟进前沿研究并推动落地。
任职要求
1. 教育背景与经验
o 本科及以上学历,计算机、人工智能等相关专业,5年以上AI相关开发经验。
o 有大规模分布式计算、存储和训练系统开发经验,具备大模型训练优化经验者优先。
2. 技术能力
o 深度学习框架:精通至少一种训练框架的底层架构,如PyTorch(优先)、DeepSpeed、Megatron-LM、FSDP、FairScale等。
o 并行训练:熟悉TP、PP、DP、MOE、FSDP等大规模分布式训练方法,具备优化经验者优先。
o 计算优化:具备GPU计算优化能力,熟悉CUDA、Triton、NCCL、RDMA、通信优化等技术。
o 系统架构:了解AI计算平台的架构,熟练掌握AI相关网络技术、容器化技术(Docker、Kubernetes)。
3. 综合能力
o 具备良好的数据分析和问题解决能力,能够精准优化训练效率。
o 具备优秀的业务理解能力,能够结合业务需求优化训练策略。
o 紧跟AI领域最新研究进展,并能快速复现、落地相关论文。
加分项
• 具备超长序列Transformer训练优化经验(如Mamba、RWKV)。
• 参与过千亿级参数大模型训练项目,有FSDP、ZeRO、ActivationCheckpointing经验。
• 具备RLHF(PPO训练)优化经验,熟悉Offload及异步并行策略。
Shanda is a global, privately-owned investment group founded by Chinese online entertainment pioneer Tianqiao Chen and his family in 1999. Shanda invests primarily in two extreme ends of the spectrum – either truly disruptive technologies at an early developmental stage or undervalued publicly listed companies with significant turnaround potential.