工作职责:
1. Kubernetes 集群部署与运维
○ 从零开始或优化现有 Kubernetes 集群的部署、配置和维护,涵盖 Pod 管理、网络(CNI)、存储(CSI)、负载均衡(LB)等组件,确保集群高效运行。
○ 实施容器化解决方案,使用 Docker 进行镜像构建和容器管控,支持微服务架构的弹性扩展。
2. 中间件与数据库运维
○ 部署、配置和监控常用中间件,如 Redis、RocketMQ、Nginx 等,处理高并发场景下的性能调优和故障排查。
○ 管理关系型数据库(如 MySQL)和非关系型数据库(如 Redis),包括集群构建、备份恢复和 SQL优化。
3. 主导 AI 大模型部署:构建 GPU 主机环境、优化 AI 镜像、编写部署脚本,支撑大模型训练与推理服务。
4. 自动化运维与 DevOps 流程
○ 开发和维护 CI/CD 流水线,使用 Jenkins、Ansible、Helm 等工具实现自动化发布、构建和部署,提升运维效率。
○ 推动 Infrastructure as Code(IaC)实践,应用 Terraform 或类似工具管理云资源。
5. 系统监控与故障响应
○ 设计并实施监控报警方案(如 ELK、Prometheus),实时分析系统日志,快速定位和解决分布式系统问题。
任职要求:
1. 全日制本科及以上学历,计算机及相关专业。
2. 经验要求
○ 3-5 年以上 IT 系统运维或云平台工程经验,需有大型互联网或分布式系统实战背景(如高并发、高可用架构)。
○ 至少 2 年以上公有云平台(阿里云、华为云)实际操作经验,熟悉核心服务如 ECS、RDS、VPC 等。
○ 丰富 Kubernetes 部署和运维经验,包括集群搭建、监控和性能优化。
○ 实际部署过中间件(如 Redis、RocketMQ)和数据库(如 MySQL、Redis),并有故障排查记录。
○ 具备 AI 部署经验:熟悉 GPU 环境运维、AI 镜像构建及大模型推理优化(如RAG/GraphRAG框架)。
3. 技术技能
○ 公有云平台:精通至少一种主流云服务(阿里云、华为云),熟悉 IAAS/PAAS/SAAS 服务模型。
○ 容器技术:熟练使用 Docker 和 Kubernetes,了解 cgroup/Namespace 原理,有容器网络和存储实战经验。
○ 中间件与数据库:掌握 Redis、MySQL、Nginx 等组件的集群构建和维护,能编写优化脚本。
○ 自动化工具:精通 Jenkins、Ansible、Helm 或类似 DevOps 工具,熟悉 CI/CD 流程设计和实现。
○ 脚本开发:熟练 Shell 和 Python 脚本编写,用于自动化任务和系统管理。
○ 监控与日志:熟悉 ELK、Prometheus 等监控方案,有日志分析和报警配置经验。
4. 软技能
○ 出色的问题排查和性能优化能力,能在压力下独立解决复杂系统问题。
○ 良好的沟通和团队协作精神,能有效推动跨部门项目(如与开发团队协作 DevOps)。
○ 快速学习新技术,乐于探索云计算前沿领域(如边缘计算、AI运维)。
加分项:
● 有从零构建大型 Kubernetes 集群或运维体系的经验,或处理过中心级分布式系统。
● 具备运维安全经验,如 Jumpserver 统一管理或合规性审计。
● 有开源贡献或自动化工具开发经历(如自定义监控脚本)。