岗位职责:
1、负责线上 混合云Kubernetes 集群的运行和维护、性能调优、故障处理等
2、负责线上各业务系统的监控告警,包括不限于Kubeprometheus-stack 的维护
3、负责 Rancher 等集群管理工具的维护及排错
4、负责 Ceph 存储系统的维护、性能调优、故障处理等5、参与设计和优化应用服务系统的部署、监控、策略和实施
6、负责应用系统的相关文档的编写等
任职要求:
1、熟练掌握 Linux,数据计算机网络和操作系统相关知识
2、熟悉或精通应用架构中涉及的常见组件或者框架,包括但不限于Nginx,Keepaived,Redls,lastcsearch,Haproxy 等
3、精通 Kubernetes,精通 Kubernetes 各组件的参数调优工作
4、精通各个第三方组件在 Kubernetes 集群内的部署运行、调优工作
5、熟练 Calico 网络组件,有P/HCNP 或更高证书优先
6、有运维开发经验最好,能用 python/golang 完成日常相关任务需求
7、熟练配置 Prometheus、AlertManager、Grafana等部署、配置、优化工作