数据标注/AI训练师

关于我们:

欢迎加入盛大人工智能研究院(SARI),研究院致力于成为人工智能创新领域的全球领导者,推动人工智能技术从“copilot”迈向“autopilot”的新时代。研究院专注于大模型以及下一代智能体的前沿探索。我们的使命是突破人工智能技术的边界,开发突破性模型,并推动模型在现实世界的应用和影响力。

此外,我们与天桥脑科学研究院(TCCI)紧密合作,共同推动人工智能与脑科学交叉研究的前沿发展。通过将以大模型为代表的人工智能最新技术成果应用于脑科学研究,助力领域突破;同时,基于脑科学对人脑认知机制的最新洞见,探索下一代人工智能的创新范式。

职位描述

我们正在寻找一位分布式训练框架工程师,负责构建和优化大规模AI训练基础设施,提升大模型训练效率与性能。你将主导分布式训练系统的架构设计与优化,研发高效的计算加速方案,确保系统的扩展性和稳定性,并推动大模型训练策略的持续优化。

岗位职责

1. 分布式训练基础设施开发

o 设计并实现分布式机器学习训练框架,优化数据处理、分布式计算和通信效率。

o 负责AI计算平台的架构与优化,提升系统扩展性和稳定性。

2. 大模型训练优化

o 研发混合并行(TP、PP、DP、MOE等)技术,提高训练吞吐量和计算效率。

o 优化超大规模MOE(MixtureofExperts)训练策略,实现低Drop率、高通信效率的Router设计。

o 设计高效的通信感知(Communication-Aware)计算优化方案,如ParallelLinear。

3. GPU计算加速与工具开发

o 研究GPU加速技术,优化AI计算平台的性能,开发相应的高性能计算工具和库。

o 负责Triton算子优化、CUDAKernel开发及大规模训练加速方案。

4. 超长序列预训练与RLHF训练优化

o 负责128k+超长序列预训练优化,提升Attention计算效率。

o 研究并优化RLHF(PPO训练),提高Training&Generation并行效率,优化KVCacheOffload-Prefetch机制。

5. 性能分析与优化

o 深入分析训练性能,精准定位并解决计算、通信、存储瓶颈,充分挖掘硬件资源潜力。

o 复现并优化最新大模型架构(LLaMA、DeepSeek、InternLM、FLUX等),跟进前沿研究并推动落地。

任职要求

1. 教育背景与经验

o 本科及以上学历,计算机、人工智能等相关专业,5年以上AI相关开发经验。

o 有大规模分布式计算、存储和训练系统开发经验,具备大模型训练优化经验者优先。

2. 技术能力

o 深度学习框架:精通至少一种训练框架的底层架构,如PyTorch(优先)、DeepSpeed、Megatron-LM、FSDP、FairScale等。

o 并行训练:熟悉TP、PP、DP、MOE、FSDP等大规模分布式训练方法,具备优化经验者优先。

o 计算优化:具备GPU计算优化能力,熟悉CUDA、Triton、NCCL、RDMA、通信优化等技术。

o 系统架构:了解AI计算平台的架构,熟练掌握AI相关网络技术、容器化技术(Docker、Kubernetes)。

3. 综合能力

o 具备良好的数据分析和问题解决能力,能够精准优化训练效率。

o 具备优秀的业务理解能力,能够结合业务需求优化训练策略。

o 紧跟AI领域最新研究进展,并能快速复现、落地相关论文。

加分项

• 具备超长序列Transformer训练优化经验(如Mamba、RWKV)。

• 参与过千亿级参数大模型训练项目,有FSDP、ZeRO、ActivationCheckpointing经验。

• 具备RLHF(PPO训练)优化经验,熟悉Offload及异步并行策略。

公司地点:上海浦东新区盛创中心2号楼2楼

公司简介:

Shanda is a global, privately-owned investment group founded by Chinese online entertainment pioneer Tianqiao Chen and his family in 1999. Shanda invests primarily in two extreme ends of the spectrum – either truly disruptive technologies at an early developmental stage or undervalued publicly listed companies with significant turnaround potential.

职位发布者:于先生

上海盛大网络发展有限公司

融资阶段:

公司规模:20~99人

相似职位: