中高级运维工程师

工作职责：

1. Kubernetes 集群部署与运维

○ 从零开始或优化现有 Kubernetes 集群的部署、配置和维护，涵盖 Pod 管理、网络（CNI）、存储（CSI）、负载均衡（LB）等组件，确保集群高效运行。

○ 实施容器化解决方案，使用 Docker 进行镜像构建和容器管控，支持微服务架构的弹性扩展。

2. 中间件与数据库运维

○ 部署、配置和监控常用中间件，如 Redis、RocketMQ、Nginx 等，处理高并发场景下的性能调优和故障排查。

○ 管理关系型数据库（如 MySQL）和非关系型数据库（如 Redis），包括集群构建、备份恢复和 SQL优化。

3. 主导 AI 大模型部署：构建 GPU 主机环境、优化 AI 镜像、编写部署脚本，支撑大模型训练与推理服务。

4. 自动化运维与 DevOps 流程

○ 开发和维护 CI/CD 流水线，使用 Jenkins、Ansible、Helm 等工具实现自动化发布、构建和部署，提升运维效率。

○ 推动 Infrastructure as Code（IaC）实践，应用 Terraform 或类似工具管理云资源。

5. 系统监控与故障响应

○ 设计并实施监控报警方案（如 ELK、Prometheus），实时分析系统日志，快速定位和解决分布式系统问题。

任职要求：

1. 全日制本科及以上学历，计算机及相关专业。

2. 经验要求

○ 3-5 年以上 IT 系统运维或云平台工程经验，需有大型互联网或分布式系统实战背景（如高并发、高可用架构）。

○ 至少 2 年以上公有云平台（阿里云、华为云）实际操作经验，熟悉核心服务如 ECS、RDS、VPC 等。

○ 丰富 Kubernetes 部署和运维经验，包括集群搭建、监控和性能优化。

○ 实际部署过中间件（如 Redis、RocketMQ）和数据库（如 MySQL、Redis），并有故障排查记录。

○ 具备 AI 部署经验：熟悉 GPU 环境运维、AI 镜像构建及大模型推理优化（如RAG/GraphRAG框架）。

3. 技术技能

○ 公有云平台：精通至少一种主流云服务（阿里云、华为云），熟悉 IAAS/PAAS/SAAS 服务模型。

○ 容器技术：熟练使用 Docker 和 Kubernetes，了解 cgroup/Namespace 原理，有容器网络和存储实战经验。

○ 中间件与数据库：掌握 Redis、MySQL、Nginx 等组件的集群构建和维护，能编写优化脚本。

○ 自动化工具：精通 Jenkins、Ansible、Helm 或类似 DevOps 工具，熟悉 CI/CD 流程设计和实现。

○ 脚本开发：熟练 Shell 和 Python 脚本编写，用于自动化任务和系统管理。

○ 监控与日志：熟悉 ELK、Prometheus 等监控方案，有日志分析和报警配置经验。

4. 软技能

○ 出色的问题排查和性能优化能力，能在压力下独立解决复杂系统问题。

○ 良好的沟通和团队协作精神，能有效推动跨部门项目（如与开发团队协作 DevOps）。

○ 快速学习新技术，乐于探索云计算前沿领域（如边缘计算、AI运维）。

加分项：

● 有从零构建大型 Kubernetes 集群或运维体系的经验，或处理过中心级分布式系统。

● 具备运维安全经验，如 Jumpserver 统一管理或合规性审计。

● 有开源贡献或自动化工具开发经历（如自定义监控脚本）。

公司地点：杭州浙江大学(玉泉校区)校区内