职位描述:
1、参与大模型分布式训练框架中分布式并行、通信、精度验证等具体模块研发工作。
2、参与大模型分布式训练框架接口设计和性能优化工作。
3、面向实际业务场景需求,进行大模型分布式训练框架的持续迭代优化。
职位要求:
1、计算机或电子通信相关专业,本科及以上学历。
2、具备坚实的 Python、C++ 工程能力。
3、具备良好的软件开发素养,熟悉 CI/CD、敏捷开发流程等。
4、掌握 Linux 操作系统、设计模式、网络通信、内存管理、多线程/进程开发等技术。
5、熟悉 Llama、ChatGLM 等典型大语言模型的网络结构。
6、熟悉数据并行、张量并行、流水并行等分布式并行技术。
7、熟悉 Megatron-LM、DeepSpeed、PyTorch 等知名开源项目,有相关开源贡献经历者优先。