岗位描述:
1. 负责AI Infra的性能分析与优化,底层能力、框架能力的产品化
2. 负责基于云上AIGC、大模型训练等业务的性能分析以及底层优化工作
岗位要求:
1. 熟练掌握Linux环境下的C/C++、Python等语言,有分布式系统软件开发和调试经验
2. 熟悉LLM/CV/NLP等业务场景的系统和原理,熟练掌握底层通信库NCCL的调度机制和算法,了解CUDA的工作机制
3. 有主流深度学习框架(如Megatron、DeepSpeed等)相关开发和调优经验,有相关业务的实际训练经验
4. 掌握异构计算、网络、存储的性能分析工具和相关原理,有软硬协同优化经验
具备以下条件之一者优先
1. 熟悉主要云厂商的Al Infra解决方案
2. 有基于NCCL/NCCLTEST等开发和优化经验优先
3. 在大模型训练或推理性能优化方面有实操经验