岗位职责
1.负责生产服务的稳定性,包括不限于 iaas、paas、saas等运维工作;并为此进行性能调优、容量评估、容灾预案等方面的优化;
2.负责AI类项目自动化运维体系的建设和落地优化,能支撑业务的快速发展,并保持系统极高的稳定性与可靠性;
3.负责常见故障排查,并处理 Linux系统及相关中间件管理、维护、调优工作
4.负责设计自动化运维平台,提升运维效率,深入研究运维相关技术,优化和提升平台服务质量
5.有良好的团队的建设和管理能力,能帮助团队持续提升运维技能水平;
任职资格
1. 全日制本科及以上学历,5年以上相关工作经验
2. 熟悉常见Linux系统(Centos及Ubuntu)系统管理维护工作,熟练使用Linux操作系统基础命令,了解TCP/IP协议
3. 熟练使用 Golang、Python及 Shell,能编写常用自动化运维工具
4. 熟练掌握 docker、Kubernetes基本原理及常用操作,熟悉Kubernetes相关生态组件
5. 熟悉常用中间件MySQL、Redis、Ceph、Kafka、Elasticsearch等部署及维护工作
6. 具有 Prometheus/VictoriaMetircs 等相关监控落地经验。
7.有高度的责任心,良好的沟通协调能力,能主动协同各部门推动解决各类问题;
8.对运维体系有深入的研究和理解,有运维自动化系统经验优先
9.不少于200台规模服务器维护经验