职责:
1.负责大语言模型、多模态模型的预训练和后训练框架研究与开发。
2.与公司算法团队深度合作,为大模型进行算法与系统的联合优化。
3.进行前瞻性技术调研且进行自主创新,保持公司在大模型系统方面的技术领先地位。
要求:
1.熟练掌握Linux环境下的C/C++与Python语言。
22有以下至少一项的背景知识或经验:分布式训练、CUDA算子优化、通信算子、训练或推理框架、在线推理服务、RDMA通信。
3.具有独立解决问题的能力,良好的团队合作精神。
4.有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项
1.深入研究过至少一种机器学习框架(Tensorflow / PyTorch 或其他框架)或分布式训练框架(Megatron/DeepSpeed/VeRL等)的底层架构和机制。
2.有研究生或博士阶段的计算机系统方向(包含分布式系统,并行计算,网络,存储等)研究背景。
3.训练过深度学习模型并进行过算法调优,熟悉强化学习训练过程,
4.在顶级会议上发表过论文者优先;深入了解大语言模型相关技术及应用,有 AI 工程落地经验者优先。