岗位职责:
1、负责GPU算/NPU算力平台的规划、系统架构设计与开发运维工作,集成云原生能力,开发调度,训练,推理等相关功能,提升平台资源利用率和扩展能力;
2、负责算力集群的维护,监控,调优,和故障定位;
3、持续运营,改进平台性能、易用性和稳定性,优化用户体验。
任职要求:
1、计算机、数学、物理、通信等等相关专业大学本科及以上学历,2年及以上相关工作经验;
2、熟练掌握Golang或者Python等编程语言,良好的编程基础;
3、熟悉云原生相关技术,如Kubeflow、Kubernetes、Operator等,具备二次开发经验;
4、熟悉调度器原理实现,有过kube-scheduler,GPU调度相关研发经验;
5、具备大规模GPU集群运维经验,能够持续优化集群使用效率并快速定位使用过程中遇到的问题;
6、具备强烈的责任心和良好的抗压能力,做事积极乐观主动。
7、有万卡集群管理运营经验、有国产AI芯片经验者优先
京东国际