岗位职责:
1、管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。
2、负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。
3、主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。
4、结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。
统招双一流本科以上优先