大模型训练框架系统工程师-上海

职责：

1.负责大语言模型、多模态模型的预训练和后训练框架研究与开发。

2.与公司算法团队深度合作，为大模型进行算法与系统的联合优化。

3.进行前瞻性技术调研且进行自主创新，保持公司在大模型系统方面的技术领先地位。

要求：

1.熟练掌握Linux环境下的C/C++与Python语言。

22有以下至少一项的背景知识或经验：分布式训练、CUDA算子优化、通信算子、训练或推理框架、在线推理服务、RDMA通信。

3.具有独立解决问题的能力，良好的团队合作精神。

4.有强烈的工作责任心，较好的学习能力、沟通能力和自驱力；有良好的工作文档习惯，及时按要求撰写更新工作流程及技术文档。

加分项

1.深入研究过至少一种机器学习框架（Tensorflow / PyTorch 或其他框架）或分布式训练框架（Megatron/DeepSpeed/VeRL等）的底层架构和机制。

2.有研究生或博士阶段的计算机系统方向（包含分布式系统，并行计算，网络，存储等）研究背景。

3.训练过深度学习模型并进行过算法调优，熟悉强化学习训练过程，

4.在顶级会议上发表过论文者优先；深入了解大语言模型相关技术及应用，有 AI 工程落地经验者优先。

公司地点：上海徐汇区西岸国际人工智能中心30层