资深sre工程师

工作职责:

1. 负责设计、实施和维护公司的高可用、高性能和高扩展性的系统基础设施。

2. 与开发团队密切合作,了解业务需求,提供适当的SRE解决方案和最佳实践。

3. 制定和执行服务级别目标(SLO)和服务级别协议(SLA),确保系统的可靠性和稳定性。

4. 参与系统的容量规划和性能优化,确保系统能够满足业务增长的需求。

5. 设计、开发和实施自动化运维工具和流程,如监控、警报、日志分析、故障诊断等,提高系统的可观察性和可维护性。

6. 参与系统的事件响应和问题解决,快速识别和修复影响系统可用性的问题,并进行事后分析和改进。

7. 负责编写和维护系统的技术文档,包括架构设计、运维手册、故障处理等。

8. 推动SRE文化和实践在组织内的应用和发展,分享知识和经验,提高团队的技术能力。

任职资格:

1. 计算机科学、软件工程或相关领域的本科及以上学历,或同等工作经验。

2. 3年以上SRE或相关领域(如运维、系统工程等)的工作经验,有大型企业或互联网公司背景者优先。

3. 精通Linux/Unix操作系统,熟悉常用的命令和工具,掌握shell、Python等脚本语言。

4. 具备扎实的计算机科学基础知识,包括数据结构、算法、网络、数据库等。

5. 熟悉分布式系统和微服务架构,了解其设计原则和最佳实践。

6. 熟悉常见的云平台,如AWS等,有相关的使用和管理经验。

7. 掌握容器化技术,如Docker、Kubernetes等,有实际的应用和运维经验，有云原生开发经验者优先。

8. 熟悉监控、日志和告警系统,如Prometheus、Grafana、ELK等。

9. 具备强大的问题分析和解决能力,能够在压力下独立工作并有效管理时间和优先级。

10. 良好的沟通和团队合作能力,能够与不同背景的团队成员有效协作。

11. 对新技术有强烈的学习和探索欲望,乐于分享知识和经验,推动团队的成长。

公司地点：上海市北·云立方云计算产业基地A座11层