岗位职责:
- 负责公司AI基础设施的搭建、维护和优化
- 设计、实施和管理基于Kubernetes的容器化平台
- 构建和维护CI/CD流水线,实现自动化部署和持续集成
- 负责大规模分布式系统的运维,包括k8s、Kafka、elasticsearch等
- GPU服务器集群的管理与监控
- AI模型的部署、扩展和性能优化
- 制定灾备方案并进行定期演练
- 解决生产环境中的各类技术问题并进行性能调优
- 设计、实施和维护公司的监控告警平台,确保系统稳定性和可用性
任职要求:
- 3年以上中大型互联网公司运维经验
- 精通Kubernetes生态系统,有丰富的容器编排和管理经验
- 熟练掌握Docker、containerd、Helm等技术
- 熟悉CI/CD工具链(如Jenkins、GitLab CI等),能够构建自动化部署流程
- 有GPU服务器集群管理经验,了解NVIDIA GPU相关技术栈
- 具备AI模型推理加速服务部署经验(如TensoRT、Vllm、SGLang等)
- 熟练使用Linux操作系统,精通Shell脚本编程
- 具备良好的问题诊断和解决能力
- 有DevOps理念,能够编写自动化脚本提高运维效率
- 良好的沟通能力和团队协作精神
加分项:
- 有网络设备管理经验
- 有桌面运维经验
- 有灰度经验