infra工程师

职位描述

1、基础设施架构设计与开发

① 设计并开发高性能、可扩展的AI基础设施架构,包括组网、存储、Kubernetes容器集群及GPU计算集群;

② 优化分布式存储系统、网络拓扑及GPU调度策略,提升AI工作负载的资源利用率;

③ 开发针对AI模型训练与推理场景的定制化基础设施解决方案;

2、Kubernetes集群与GPU调度

① 负责Kubernetes集群的部署、扩容和维护,设计高效的调度策略以支持大规模AI任务;

② 开发或优化GPU调度算法,提升GPU资源分配效率;

③ 集成和管理GPU相关工具(如NVIDIA GPU Operator、CUDA等),确保AI模型训练和推理的性能优化;

3、网络与存储优化

① 设计并实现高吞吐、低延迟的网络架构,满足AI任务的数据传输需求;

② 管理分布式存储系统(如Ceph、NFS、GlusterFS),优化存储性能并保障数据可靠性;

③ 开发自动化工具,实现网络配置、存储管理的智能化和高效化;

4、性能监控与优化

① 监控AI基础设施的性能指标,分析资源使用情况并持续优化系统性能;

② 调研前沿技术(如RDMA网络、存储压缩算法等),并应用于基础设施优化;

职位要求

1、本科及以上学历,计算机科学、软件工程或相关专业;3年以上分布式系统、云计算或AI基础设施相关研发经验;

2、熟练掌握至少一种编程语言(如Python、Go、C++),具备系统级工具或平台的开发能力;

3、深入理解计算机网络(如TCP/IP、BGP、VxLAN)、分布式存储系统及其优化原理;

4、熟悉容器技术(如Docker、Kubernetes),具备K8s集群的部署、管理及优化经验;

5、熟悉GPU计算生态系统(如NVIDIA GPU Operator、CUDA、NCCL等),具备GPU性能调优经验;

加分项:

具备RDMA网络、NVMe-oF存储优化经验;熟悉深度学习框架(如TensorFlow、PyTorch)的基础设施需求;参与过大型分布式AI训练集群的设计与实现。

公司地点:上海闵行区虹桥汇(申长路990弄)-T2号楼上海市闵行区申长路990弄T2楼9层

公司简介:

职位发布者:唐女士

酷睿程(北京)科技有限公司

融资阶段:

公司规模:

相似职位: