职位描述
1. 负责构建和管理大规模CPU和GPU计算平台的底层基础设施,支持大规模数据处理、机器学习、应用推理等多种
场景
2. 负责多云异构场景下的底层组件的兼容性、可移植性设计和研发
3. 负责设计计算平台的各类原子管控能力,支撑上下游平台和应用的自动化对接
职位要求
1. 深入理解 Kubernetes的原理,有丰富的云原生系统开发经验
2. 精通 Java/C++/Go 等任一编程语言,具备扎实的数据结构和问题排查能力
3. 熟悉主流的机器学习框架如TensorFlow、PyTorch、MXNet等
具备以下经验者优先
1. 熟悉CSI、CNI等相关组件的开发,成功对接过多种系统环境
2. 熟悉CUDA生态下的工具集,具备大规模RDMA训练集群的维护和问题排查经验