数据标注/AI训练师

关于我们：

欢迎加入盛大人工智能研究院(SARI)，研究院致力于成为人工智能创新领域的全球领导者，推动人工智能技术从“copilot”迈向“autopilot”的新时代。研究院专注于大模型以及下一代智能体的前沿探索。我们的使命是突破人工智能技术的边界，开发突破性模型，并推动模型在现实世界的应用和影响力。

此外，我们与天桥脑科学研究院(TCCI)紧密合作，共同推动人工智能与脑科学交叉研究的前沿发展。通过将以大模型为代表的人工智能最新技术成果应用于脑科学研究，助力领域突破；同时，基于脑科学对人脑认知机制的最新洞见，探索下一代人工智能的创新范式。

职位描述

我们正在寻找一位分布式训练框架工程师，负责构建和优化大规模AI训练基础设施，提升大模型训练效率与性能。你将主导分布式训练系统的架构设计与优化，研发高效的计算加速方案，确保系统的扩展性和稳定性，并推动大模型训练策略的持续优化。

岗位职责

1. 分布式训练基础设施开发

o 设计并实现分布式机器学习训练框架，优化数据处理、分布式计算和通信效率。

o 负责AI计算平台的架构与优化，提升系统扩展性和稳定性。

2. 大模型训练优化

o 研发混合并行（TP、PP、DP、MOE等）技术，提高训练吞吐量和计算效率。

o 优化超大规模MOE（MixtureofExperts）训练策略，实现低Drop率、高通信效率的Router设计。

o 设计高效的通信感知（Communication-Aware）计算优化方案，如ParallelLinear。

3. GPU计算加速与工具开发

o 研究GPU加速技术，优化AI计算平台的性能，开发相应的高性能计算工具和库。

o 负责Triton算子优化、CUDAKernel开发及大规模训练加速方案。

4. 超长序列预训练与RLHF训练优化

o 负责128k+超长序列预训练优化，提升Attention计算效率。

o 研究并优化RLHF（PPO训练），提高Training&Generation并行效率，优化KVCacheOffload-Prefetch机制。

5. 性能分析与优化

o 深入分析训练性能，精准定位并解决计算、通信、存储瓶颈，充分挖掘硬件资源潜力。

o 复现并优化最新大模型架构（LLaMA、DeepSeek、InternLM、FLUX等），跟进前沿研究并推动落地。

任职要求

1. 教育背景与经验

o 本科及以上学历，计算机、人工智能等相关专业，5年以上AI相关开发经验。

o 有大规模分布式计算、存储和训练系统开发经验，具备大模型训练优化经验者优先。

2. 技术能力

o 深度学习框架：精通至少一种训练框架的底层架构，如PyTorch（优先）、DeepSpeed、Megatron-LM、FSDP、FairScale等。

o 并行训练：熟悉TP、PP、DP、MOE、FSDP等大规模分布式训练方法，具备优化经验者优先。

o 计算优化：具备GPU计算优化能力，熟悉CUDA、Triton、NCCL、RDMA、通信优化等技术。

o 系统架构：了解AI计算平台的架构，熟练掌握AI相关网络技术、容器化技术（Docker、Kubernetes）。

3. 综合能力

o 具备良好的数据分析和问题解决能力，能够精准优化训练效率。

o 具备优秀的业务理解能力，能够结合业务需求优化训练策略。

o 紧跟AI领域最新研究进展，并能快速复现、落地相关论文。

加分项

• 具备超长序列Transformer训练优化经验（如Mamba、RWKV）。

• 参与过千亿级参数大模型训练项目，有FSDP、ZeRO、ActivationCheckpointing经验。

• 具备RLHF（PPO训练）优化经验，熟悉Offload及异步并行策略。

公司地点：上海浦东新区盛创中心2号楼2楼

公司简介：

Shanda is a global, privately-owned investment group founded by Chinese online entertainment pioneer Tianqiao Chen and his family in 1999. Shanda invests primarily in two extreme ends of the spectrum – either truly disruptive technologies at an early developmental stage or undervalued publicly listed companies with significant turnaround potential.

数据标注/AI训练师

公司地点：上海浦东新区盛创中心2号楼2楼

公司简介：

职位发布者：于先生

融资阶段：

公司规模：20~99人

相似职位：