工作职责:
1. 负责设计、实施和维护公司的高可用、高性能和高扩展性的系统基础设施。
2. 与开发团队密切合作,了解业务需求,提供适当的SRE解决方案和最佳实践。
3. 制定和执行服务级别目标(SLO)和服务级别协议(SLA),确保系统的可靠性和稳定性。
4. 参与系统的容量规划和性能优化,确保系统能够满足业务增长的需求。
5. 设计、开发和实施自动化运维工具和流程,如监控、警报、日志分析、故障诊断等,提高系统的可观察性和可维护性。
6. 参与系统的事件响应和问题解决,快速识别和修复影响系统可用性的问题,并进行事后分析和改进。
7. 负责编写和维护系统的技术文档,包括架构设计、运维手册、故障处理等。
8. 推动SRE文化和实践在组织内的应用和发展,分享知识和经验,提高团队的技术能力。
任职资格:
1. 计算机科学、软件工程或相关领域的本科及以上学历,或同等工作经验。
2. 3年以上SRE或相关领域(如运维、系统工程等)的工作经验,有大型企业或互联网公司背景者优先。
3. 精通Linux/Unix操作系统,熟悉常用的命令和工具,掌握shell、Python等脚本语言。
4. 具备扎实的计算机科学基础知识,包括数据结构、算法、网络、数据库等。
5. 熟悉分布式系统和微服务架构,了解其设计原则和最佳实践。
6. 熟悉常见的云平台,如AWS等,有相关的使用和管理经验。
7. 掌握容器化技术,如Docker、Kubernetes等,有实际的应用和运维经验,有云原生开发经验者优先。
8. 熟悉监控、日志和告警系统,如Prometheus、Grafana、ELK等。
9. 具备强大的问题分析和解决能力,能够在压力下独立工作并有效管理时间和优先级。
10. 良好的沟通和团队合作能力,能够与不同背景的团队成员有效协作。
11. 对新技术有强烈的学习和探索欲望,乐于分享知识和经验,推动团队的成长。