运维工程师

岗位职责：

- 负责公司AI基础设施的搭建、维护和优化

- 设计、实施和管理基于Kubernetes的容器化平台

- 构建和维护CI/CD流水线，实现自动化部署和持续集成

- 负责大规模分布式系统的运维，包括k8s、Kafka、elasticsearch等

- GPU服务器集群的管理与监控

- AI模型的部署、扩展和性能优化

- 制定灾备方案并进行定期演练

- 解决生产环境中的各类技术问题并进行性能调优

- 设计、实施和维护公司的监控告警平台，确保系统稳定性和可用性

任职要求：

- 3年以上中大型互联网公司运维经验

- 精通Kubernetes生态系统，有丰富的容器编排和管理经验

- 熟练掌握Docker、containerd、Helm等技术

- 熟悉CI/CD工具链(如Jenkins、GitLab CI等)，能够构建自动化部署流程

- 有GPU服务器集群管理经验，了解NVIDIA GPU相关技术栈

- 具备AI模型推理加速服务部署经验(如TensoRT、Vllm、SGLang等)

- 熟练使用Linux操作系统，精通Shell脚本编程

- 具备良好的问题诊断和解决能力

- 有DevOps理念，能够编写自动化脚本提高运维效率

- 良好的沟通能力和团队协作精神

加分项：

- 有网络设备管理经验

- 有桌面运维经验

- 有灰度经验

公司地点：广州海珠区环球贸易中心(新港东路)5楼