岗位概述
1、负责企业云原生架构的规划、实施与运维,保障高并发分布式系统的稳定性、高可用及安全性。核心要求精通NGINX及Ingress控制器配置调优,熟练掌握阿里云负载均衡服务(SLB/ALB),具备Kubernetes集群全生命周期管理能力,推动自动化运维体系建设。
核心职责
1、云原生架构维护
2、设计并管理Kubernetes集群,包括部署、扩缩容、监控、故障恢复及性能优化,确保生产环境99.99%+可用性。
3、配置并优化NGINX Ingress Controller,实现基于域名/路径的七层流量路由、TLS终止及WAF集成。
4、负载均衡与流量治理
5、管理阿里云SLB/ALB,设计四层(TCP/UDP)与七层(HTTP/HTTPS)负载方案,结合Auto Scaling实现弹性流量调度。
6、实施金丝雀发布、蓝绿部署等策略,通过Ingress注解实现流量切分与灰度发布。自动化运维体系
7、基于Ansible/SaltStack编写自动化脚本,集成Jenkins/GitLab CI实现CI/CD流水线,提升部署效率50%+。
8、构建Prometheus+Grafana+ELK监控告警体系,覆盖集群资源、服务状态及业务指标。
9、故障响应与优化
10、主导P0级故障排查(如网络延迟、Ingress路由异常、云服务限流),输出根因分析及预防方案。
11优化容器编排调度策略,降低资源碎片率,节约云成本20%+。
必备技能
技术要求:
1. NGINX/Ingress:精通配置调优(连接数/超时/缓存)、Lua脚本扩展、Ingress注解定制(重定向/限速/认证)。
2. 阿里云:熟练使用SLB/ALB/NAT网关,具备证书管理、访问控制及DDoS防护实战经验。
3. Kubernetes:熟悉Helm部署、CRD开发、网络模型(Calico/Flannel)、存储卷管理及Operator开发框架。
4. 编程能力:熟练使用Shell/Python/Go编写运维工具,实现自动化巡检及日志分析。
软性要求:
5年以上运维经验,3年云原生方向经验,主导过≥500节点集群运维。
具备技术文档撰写及跨团队协作能力,持有CKA/Aliyun ACE认证者优先。
优先资格
有大型电商系统运维经验,熟悉秒杀场景流量调度策略。
熟悉Istio服务网格或OpenKr