岗位职责:
1.负责带领SRE团队保障支撑全球短剧产品的服务可靠、稳定、高效运行;
2.负责SRE体系建设:SRE理念落地,规范制定,SLA建设,以及可观测性、运维自动化、CICD、服务管理、资源管理、成本管理等平台化建设;
3.负责解决复杂的技术挑战,对团队提供技术指导和支持,进行人员培养;
4.负责和业务团队合作,分析业务对基础设施的当前和长远需求,为业务提供最佳运维架构和基础设施支持;
5.负责服务器成本控制,以及维护与供应商的合作关系。
职位要求
任职要求:
1.理工类本科及以上学历,互联网行业8年以上运维经验,2年以上带运维团队经验,成功实践过SRE;
2.扎实的计算机基础知识,包括操作系统、网络、存储、安全等相关原理;
3.熟练掌握Shell编程,熟练掌握Go/Python/Java等一种或多种编程语言,有Java微服务的运维经验;
4.深入了解常见中间件技术(如Nginx、Mysql、Redis、ElasticSearch、Prometheus、Grafana、Kafka、Jenkins等);
5.有2年以上公有云经验(aws/gcp/azure/aliyun等),熟悉云原生技术,有丰富的云原生架构设计和建设经验;
6.有运维平台的落地经验,具有强烈的自动化和持续改进理念;
7.较强的逻辑思维能力,良好的沟通能力,严谨细心的工作习惯, 优秀的成本意识