大模型分布式训练框架研发工程师(A191023)

职位描述：

1、参与大模型分布式训练框架中分布式并行、通信、精度验证等具体模块研发工作。

2、参与大模型分布式训练框架接口设计和性能优化工作。

3、面向实际业务场景需求，进行大模型分布式训练框架的持续迭代优化。

职位要求：

1、计算机或电子通信相关专业，本科及以上学历。

2、具备坚实的 Python、C++ 工程能力。

3、具备良好的软件开发素养，熟悉 CI/CD、敏捷开发流程等。

4、掌握 Linux 操作系统、设计模式、网络通信、内存管理、多线程/进程开发等技术。

5、熟悉 Llama、ChatGLM 等典型大语言模型的网络结构。

6、熟悉数据并行、张量并行、流水并行等分布式并行技术。

7、熟悉 Megatron-LM、DeepSpeed、PyTorch 等知名开源项目，有相关开源贡献经历者优先。

公司地点：北京海淀区东升大厦裙楼三层301