infra工程师

职位描述

1、基础设施架构设计与开发

① 设计并开发高性能、可扩展的AI基础设施架构，包括组网、存储、Kubernetes容器集群及GPU计算集群；

② 优化分布式存储系统、网络拓扑及GPU调度策略，提升AI工作负载的资源利用率；

③ 开发针对AI模型训练与推理场景的定制化基础设施解决方案；

2、Kubernetes集群与GPU调度

① 负责Kubernetes集群的部署、扩容和维护，设计高效的调度策略以支持大规模AI任务；

② 开发或优化GPU调度算法，提升GPU资源分配效率；

③ 集成和管理GPU相关工具（如NVIDIA GPU Operator、CUDA等），确保AI模型训练和推理的性能优化；

3、网络与存储优化

① 设计并实现高吞吐、低延迟的网络架构，满足AI任务的数据传输需求；

② 管理分布式存储系统（如Ceph、NFS、GlusterFS），优化存储性能并保障数据可靠性；

③ 开发自动化工具，实现网络配置、存储管理的智能化和高效化；

4、性能监控与优化

① 监控AI基础设施的性能指标，分析资源使用情况并持续优化系统性能；

② 调研前沿技术（如RDMA网络、存储压缩算法等），并应用于基础设施优化；

职位要求

1、本科及以上学历，计算机科学、软件工程或相关专业；3年以上分布式系统、云计算或AI基础设施相关研发经验；

2、熟练掌握至少一种编程语言（如Python、Go、C++），具备系统级工具或平台的开发能力；

3、深入理解计算机网络（如TCP/IP、BGP、VxLAN）、分布式存储系统及其优化原理；

4、熟悉容器技术（如Docker、Kubernetes），具备K8s集群的部署、管理及优化经验；

5、熟悉GPU计算生态系统（如NVIDIA GPU Operator、CUDA、NCCL等），具备GPU性能调优经验；

加分项：

具备RDMA网络、NVMe-oF存储优化经验；熟悉深度学习框架（如TensorFlow、PyTorch）的基础设施需求；参与过大型分布式AI训练集群的设计与实现。

公司地点：上海闵行区虹桥汇(申长路990弄)-T2号楼上海市闵行区申长路990弄T2楼9层