工作职责
1. 负责大语言模型的基础架构搭建与工程化工作
2. 负责模型训练和推理的极致性能调优,高效的分布式训练等方向的技术攻关
任职资格
1. 熟练掌握 C++/Python之一,具有良好的软件开发素养
2. 熟悉 PyTorch/TensorFlow/PaddlePaddle 等深度学习框架之一
3. 熟悉深度学习原理与常见优化算法
4. 熟悉容器技术,如 Docker;
5. 有优秀的逻辑分析能力,良好的工作文档习惯,良好的团队合作精神
6. 积极追踪业内AI动态,对大语言模型方向有热情
加分项
1. 熟悉 Transformer 的训练流程,有高效online RL训练经验,有AIGC相关项目背景尤佳
2. 熟悉3D并行,专家并行 EP, 序列并行SP, 上下文并行CP,ZeRO系列并行优化策略,完全分片数据并行(FSDP)训练,熟悉 Megatron/Deepspeed/TensorRT/ONNX Runtime/FasterTransformer/vLLM/SGLang 等训练和推理框架;
3. 有神经网络算子开发经验;
4. 熟悉 GPU 编程,具有 CUDA C/C++ 的研发经验