AI平台-算力调度

岗位职责:

1、负责GPU算/NPU算力平台的规划、系统架构设计与开发运维工作,集成云原生能力,开发调度,训练,推理等相关功能,提升平台资源利用率和扩展能力;

2、负责算力集群的维护,监控,调优,和故障定位;

3、持续运营,改进平台性能、易用性和稳定性,优化用户体验。

任职要求:

1、计算机、数学、物理、通信等等相关专业大学本科及以上学历,2年及以上相关工作经验;

2、熟练掌握Golang或者Python等编程语言,良好的编程基础;

3、熟悉云原生相关技术,如Kubeflow、Kubernetes、Operator等,具备二次开发经验;

4、熟悉调度器原理实现,有过kube-scheduler,GPU调度相关研发经验;

5、具备大规模GPU集群运维经验,能够持续优化集群使用效率并快速定位使用过程中遇到的问题;

6、具备强烈的责任心和良好的抗压能力,做事积极乐观主动。

7、有万卡集群管理运营经验、有国产AI芯片经验者优先

公司地点:北京通州区京东总部1号楼E座

公司简介:

京东国际

职位发布者:沈女士

北京沃东天骏信息技术有限公司

融资阶段:已上市

公司规模:1000~9999人

相似职位: