大模型训练框架系统工程师-上海

职责:

1.负责大语言模型、多模态模型的预训练和后训练框架研究与开发。

2.与公司算法团队深度合作,为大模型进行算法与系统的联合优化。

3.进行前瞻性技术调研且进行自主创新,保持公司在大模型系统方面的技术领先地位。

要求:

1.熟练掌握Linux环境下的C/C++与Python语言。

22有以下至少一项的背景知识或经验:分布式训练、CUDA算子优化、通信算子、训练或推理框架、在线推理服务、RDMA通信。

3.具有独立解决问题的能力,良好的团队合作精神。

4.有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。

加分项

1.深入研究过至少一种机器学习框架(Tensorflow / PyTorch 或其他框架)或分布式训练框架(Megatron/DeepSpeed/VeRL等)的底层架构和机制。

2.有研究生或博士阶段的计算机系统方向(包含分布式系统,并行计算,网络,存储等)研究背景。

3.训练过深度学习模型并进行过算法调优,熟悉强化学习训练过程,

4.在顶级会议上发表过论文者优先;深入了解大语言模型相关技术及应用,有 AI 工程落地经验者优先。

公司地点:上海徐汇区西岸国际人工智能中心30层

公司简介:

职位发布者:曹经理

上海阶跃星辰智能科技有限公司

融资阶段:

公司规模:

相似职位: