机器学习平台调度工程师招聘

岗位职责

大规模GPU集群调度与优化：

- 主导万卡级GPU集群的全局资源调度，提升资源利用率与任务执行效率，保障离线/在线任务的高效稳定运行

- 优化RDMA高速网络、分布式存储与计算资源的协同调度，解决大规模训练任务中的性能瓶颈

- 基于Kubernetes、Docker等云原生技术，构建高可用调度框架，支持分布式训练框架，实现任务编排、容灾与混部能力。深入K8s调度器、CSI插件及CRD开发，推动大规模训推技术落地。

岗位要求

熟练掌握Go/Python/C++至少一门语言，精通数据结构和算法

熟悉Kubernetes核心组件（调度器/网络/存储）、容器运行时及CRD开发，具备大规模集群调优经验

具备OpenMP/MPI/RDMA高性能计算开发经验

熟悉主流AI框架（Pytorch/TensorFlow等）及训练加速技术（算子优化/显存管理）

软性素质

强烈的技术自驱力，能快速学习GPU/NPU新硬件架构及前沿论文技术

优秀的跨团队协作能力，适应复杂业务场景的技术攻坚

加分项

有万卡级GPU集群调度实战经验（如弹性任务抢占、跨集群资源池化）

熟悉分布式训练框架、大规模训练推理等技术

在MLSys/ATC等顶会发表过资源调度相关论文

公司地点：北京海淀区腾讯腾讯总部大楼

腾讯以技术丰富互联网用户的生活。

通过通信及社交平台微信和 QQ 促进用户联系，并助其连接数字内容和生活服务，尽在弹指间。

通过高效广告平台，协助品牌和市场营销者触达数以亿计的中国消费者。

通过金融科技及企业服务，促进合作伙伴业务发展，助力实现数字化升级。

我们大力投资于人才队伍和推动科技创新，积极参与互联网行业协同发展。

腾讯于 1998 年11月在中国深圳成立，2004 年6月在香港联合交易所主板上市。