运维工程师

岗位职责:

- 负责公司AI基础设施的搭建、维护和优化

- 设计、实施和管理基于Kubernetes的容器化平台

- 构建和维护CI/CD流水线,实现自动化部署和持续集成

- 负责大规模分布式系统的运维,包括k8s、Kafka、elasticsearch等

- GPU服务器集群的管理与监控

- AI模型的部署、扩展和性能优化

- 制定灾备方案并进行定期演练

- 解决生产环境中的各类技术问题并进行性能调优

- 设计、实施和维护公司的监控告警平台,确保系统稳定性和可用性

任职要求:

- 3年以上中大型互联网公司运维经验

- 精通Kubernetes生态系统,有丰富的容器编排和管理经验

- 熟练掌握Docker、containerd、Helm等技术

- 熟悉CI/CD工具链(如Jenkins、GitLab CI等),能够构建自动化部署流程

- 有GPU服务器集群管理经验,了解NVIDIA GPU相关技术栈

- 具备AI模型推理加速服务部署经验(如TensoRT、Vllm、SGLang等)

- 熟练使用Linux操作系统,精通Shell脚本编程

- 具备良好的问题诊断和解决能力

- 有DevOps理念,能够编写自动化脚本提高运维效率

- 良好的沟通能力和团队协作精神

加分项:

- 有网络设备管理经验

- 有桌面运维经验

- 有灰度经验

公司地点:广州海珠区环球贸易中心(新港东路)5楼

公司简介:

职位发布者:宋先生

广州乐七七信息科技有限公司

融资阶段:

公司规模:

相似职位: