职位描述
1、负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech等)的模型训练、模型评估和模型推理;
2、负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用;
3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力;
4、负责多机房、多地域、多云场景的在离线任务/服务调度,实现负载合理化分布。
职位要求
1、熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言;
2、熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata/Podman等容器技术,有丰富的机器学习系统实践和开发经验;volcano等调度框架;
3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
4、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动。
加分项:
1、熟悉至少一种主流的机器学习框架(TensorFlow/PyTorch);
2、有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU、Accelerators、Networking)。
3、具备CUDA编程,NCCL,RDMA、Deepep等能力者优先考虑。