工作职责
作为SRE工程师,您将负责问题处理、安全生产和系统可靠性方面的工作。您将与开发团队紧密合作,通过自动化、监控和故障处理等手段,确保系统的稳定运行和高可用性。
◆系统可靠性:负责监控和维护系统的可靠性、可用性和性能。通过分析和处理故障、优化系统配置和资源管理等手段,确保系统的高可靠性和稳定性。
◆问题处理和故障排除:负责识别和解决系统中出现的问题和故障。使用监控工具和日志分析,进行故障排查和调试,定位问题根本原因,并提供解决方案。
◆安全生产和风险管理:参与系统的安全评估和风险分析,确保系统的安全性和防护措施。制定安全策略和控制措施,对潜在的安全漏洞和风险进行预防和应对。
◆自动化和工具开发:通过开发自动化工具和脚本,提高工作效率和系统可靠性。编写脚本和工具,简化日常操作和监控任务,提高系统的自动化程度。
◆性能优化和容量规划:分析和优化系统的性能和容量,确保系统能够满足业务需求。通过负载测试、容量规划和资源管理等手段,优化系统的吞吐量和响应时间。
◆紧急响应和危机管理:参与紧急事态的处理和危机管理,快速响应和恢复系统的正常运行。制定应急计划和预案,对紧急情况进行快速反应和处理。
任职资格
◆本科或以上学历,计算机科学或相关专业背景,相关工作经验3年以上。
◆具备相关的工作经验,熟悉系统运维和可靠性工程的基本原理和实践。
◆熟悉Linux操作系统和常用的运维工具,如Shell脚本、监控工具、日志分析等。
◆熟悉云计算环境和容器化技术,如阿里云、腾讯云、Docker等。
◆具备网络和安全方面的知识,了解常见的安全漏洞和攻击防护措施。
◆具备自动化和编程能力,熟练使用至少一种编程语言,如Python、java等。
◆具备良好的问题解决和故障排除能力,能够快速定位和解决系统问题。
◆具备团队协作和沟通能力,能够与开发团队和其他团队紧密合作。