职位描述
1、基础设施架构设计与开发
① 设计并开发高性能、可扩展的AI基础设施架构,包括组网、存储、Kubernetes容器集群及GPU计算集群;
② 优化分布式存储系统、网络拓扑及GPU调度策略,提升AI工作负载的资源利用率;
③ 开发针对AI模型训练与推理场景的定制化基础设施解决方案;
2、Kubernetes集群与GPU调度
① 负责Kubernetes集群的部署、扩容和维护,设计高效的调度策略以支持大规模AI任务;
② 开发或优化GPU调度算法,提升GPU资源分配效率;
③ 集成和管理GPU相关工具(如NVIDIA GPU Operator、CUDA等),确保AI模型训练和推理的性能优化;
3、网络与存储优化
① 设计并实现高吞吐、低延迟的网络架构,满足AI任务的数据传输需求;
② 管理分布式存储系统(如Ceph、NFS、GlusterFS),优化存储性能并保障数据可靠性;
③ 开发自动化工具,实现网络配置、存储管理的智能化和高效化;
4、性能监控与优化
① 监控AI基础设施的性能指标,分析资源使用情况并持续优化系统性能;
② 调研前沿技术(如RDMA网络、存储压缩算法等),并应用于基础设施优化;
职位要求
1、本科及以上学历,计算机科学、软件工程或相关专业;3年以上分布式系统、云计算或AI基础设施相关研发经验;
2、熟练掌握至少一种编程语言(如Python、Go、C++),具备系统级工具或平台的开发能力;
3、深入理解计算机网络(如TCP/IP、BGP、VxLAN)、分布式存储系统及其优化原理;
4、熟悉容器技术(如Docker、Kubernetes),具备K8s集群的部署、管理及优化经验;
5、熟悉GPU计算生态系统(如NVIDIA GPU Operator、CUDA、NCCL等),具备GPU性能调优经验;
加分项:
具备RDMA网络、NVMe-oF存储优化经验;熟悉深度学习框架(如TensorFlow、PyTorch)的基础设施需求;参与过大型分布式AI训练集群的设计与实现。