岗位职责
大规模GPU集群调度与优化:
- 主导万卡级GPU集群的全局资源调度,提升资源利用率与任务执行效率,保障离线/在线任务的高效稳定运行
- 优化RDMA高速网络、分布式存储与计算资源的协同调度,解决大规模训练任务中的性能瓶颈
- 基于Kubernetes、Docker等云原生技术,构建高可用调度框架,支持分布式训练框架,实现任务编排、容灾与混部能力。深入K8s调度器、CSI插件及CRD开发,推动大规模训推技术落地。
岗位要求
熟练掌握Go/Python/C++至少一门语言,精通数据结构和算法
熟悉Kubernetes核心组件(调度器/网络/存储)、容器运行时及CRD开发,具备大规模集群调优经验
具备OpenMP/MPI/RDMA高性能计算开发经验
熟悉主流AI框架(Pytorch/TensorFlow等)及训练加速技术(算子优化/显存管理)
软性素质
强烈的技术自驱力,能快速学习GPU/NPU新硬件架构及前沿论文技术
优秀的跨团队协作能力,适应复杂业务场景的技术攻坚
加分项
有万卡级GPU集群调度实战经验(如弹性任务抢占、跨集群资源池化)
熟悉分布式训练框架、大规模训练推理等技术
在MLSys/ATC等顶会发表过资源调度相关论文
腾讯以技术丰富互联网用户的生活。
通过通信及社交平台微信和 QQ 促进用户联系,并助其连接数字内容和生活服务,尽在弹指间。
通过高效广告平台,协助品牌和市场营销者触达数以亿计的中国消费者。
通过金融科技及企业服务,促进合作伙伴业务发展,助力实现数字化升级。
我们大力投资于人才队伍和推动科技创新,积极参与互联网行业协同发展。
腾讯于 1998 年11月在中国深圳成立,2004 年6月在香港联合交易所主板上市。