中高级运维工程师

工作职责:

1. Kubernetes 集群部署与运维

○ 从零开始或优化现有 Kubernetes 集群的部署、配置和维护,涵盖 Pod 管理、网络(CNI)、存储(CSI)、负载均衡(LB)等组件,确保集群高效运行。

○ 实施容器化解决方案,使用 Docker 进行镜像构建和容器管控,支持微服务架构的弹性扩展。

2. 中间件与数据库运维

○ 部署、配置和监控常用中间件,如 Redis、RocketMQ、Nginx 等,处理高并发场景下的性能调优和故障排查。

○ 管理关系型数据库(如 MySQL)和非关系型数据库(如 Redis),包括集群构建、备份恢复和 SQL优化。

3. 主导 AI 大模型部署:构建 GPU 主机环境、优化 AI 镜像、编写部署脚本,支撑大模型训练与推理服务。

4. 自动化运维与 DevOps 流程

○ 开发和维护 CI/CD 流水线,使用 Jenkins、Ansible、Helm 等工具实现自动化发布、构建和部署,提升运维效率。

○ 推动 Infrastructure as Code(IaC)实践,应用 Terraform 或类似工具管理云资源。

5. 系统监控与故障响应

○ 设计并实施监控报警方案(如 ELK、Prometheus),实时分析系统日志,快速定位和解决分布式系统问题。

任职要求:

1. 全日制本科及以上学历,计算机及相关专业。

2. 经验要求

○ 3-5 年以上 IT 系统运维或云平台工程经验,需有大型互联网或分布式系统实战背景(如高并发、高可用架构)。

○ 至少 2 年以上公有云平台(阿里云、华为云)实际操作经验,熟悉核心服务如 ECS、RDS、VPC 等。

○ 丰富 Kubernetes 部署和运维经验,包括集群搭建、监控和性能优化。

○ 实际部署过中间件(如 Redis、RocketMQ)和数据库(如 MySQL、Redis),并有故障排查记录。

○ 具备 AI 部署经验:熟悉 GPU 环境运维、AI 镜像构建及大模型推理优化(如RAG/GraphRAG框架)。

3. 技术技能

○ 公有云平台:精通至少一种主流云服务(阿里云、华为云),熟悉 IAAS/PAAS/SAAS 服务模型。

○ 容器技术:熟练使用 Docker 和 Kubernetes,了解 cgroup/Namespace 原理,有容器网络和存储实战经验。

○ 中间件与数据库:掌握 Redis、MySQL、Nginx 等组件的集群构建和维护,能编写优化脚本。

○ 自动化工具:精通 Jenkins、Ansible、Helm 或类似 DevOps 工具,熟悉 CI/CD 流程设计和实现。

○ 脚本开发:熟练 Shell 和 Python 脚本编写,用于自动化任务和系统管理。

○ 监控与日志:熟悉 ELK、Prometheus 等监控方案,有日志分析和报警配置经验。

4. 软技能

○ 出色的问题排查和性能优化能力,能在压力下独立解决复杂系统问题。

○ 良好的沟通和团队协作精神,能有效推动跨部门项目(如与开发团队协作 DevOps)。

○ 快速学习新技术,乐于探索云计算前沿领域(如边缘计算、AI运维)。

加分项:

● 有从零构建大型 Kubernetes 集群或运维体系的经验,或处理过中心级分布式系统。

● 具备运维安全经验,如 Jumpserver 统一管理或合规性审计。

● 有开源贡献或自动化工具开发经历(如自定义监控脚本)。

公司地点:杭州浙江大学(玉泉校区)校区内

公司简介:

职位发布者:赵经理

杭州高新区(滨江)区块链与数据安全研究院

融资阶段:

公司规模:

相似职位: