机器学习平台调度工程师招聘​​

岗位职责​​

​​大规模GPU集群调度与优化​​:

- 主导万卡级GPU集群的全局资源调度,提升资源利用率与任务执行效率,保障离线/在线任务的高效稳定运行

- 优化RDMA高速网络、分布式存储与计算资源的协同调度,解决大规模训练任务中的性能瓶颈

​​- 基于Kubernetes、Docker等云原生技术,构建高可用调度框架,支持分布式训练框架,实现任务编排、容灾与混部能力。深入K8s调度器、CSI插件及CRD开发,推动大规模训推技术落地。

​​岗位要求​​

熟练掌握Go/Python/C++至少一门语言,精通数据结构和算法

熟悉Kubernetes核心组件(调度器/网络/存储)、容器运行时及CRD开发,具备大规模集群调优经验

具备OpenMP/MPI/RDMA高性能计算开发经验

熟悉主流AI框架(Pytorch/TensorFlow等)及训练加速技术(算子优化/显存管理)

​​软性素质​​

强烈的技术自驱力,能快速学习GPU/NPU新硬件架构及前沿论文技术

优秀的跨团队协作能力,适应复杂业务场景的技术攻坚

​​加分项​​

有万卡级GPU集群调度实战经验(如弹性任务抢占、跨集群资源池化)

熟悉分布式训练框架、大规模训练推理等技术

在MLSys/ATC等顶会发表过资源调度相关论文

公司地点:北京海淀区腾讯腾讯总部大楼

公司简介:

腾讯以技术丰富互联网用户的生活。

通过通信及社交平台微信和 QQ 促进用户联系,并助其连接数字内容和生活服务,尽在弹指间。

通过高效广告平台,协助品牌和市场营销者触达数以亿计的中国消费者。

通过金融科技及企业服务,促进合作伙伴业务发展,助力实现数字化升级。

我们大力投资于人才队伍和推动科技创新,积极参与互联网行业协同发展。

腾讯于 1998 年11月在中国深圳成立,2004 年6月在香港联合交易所主板上市。

职位发布者:黄经理

腾讯科技(北京)有限公司

融资阶段:

公司规模:

相似职位: