岗位职责:
1、维护CDN平台各系统的稳定运行,确保平台服务的高可用性和可靠性。
2、完善各系统的监控指标,设计并优化告警机制,确保监控系统能够及时发现并报告问题。
3、处理日常告警事件,迅速定位并解决系统故障,保障平台的正常运行。
4、处理日常用户反馈事件,及时响应并解决用户遇到的问题,提升用户满意度。
5、协助进行系统升级、性能优化和安全加固,确保平台持续优化和改进。
6、编写和维护运维文档,包括操作手册、故障处理流程和系统架构文档等。
7、与开发团队紧密合作,推动问题的快速解决和系统的持续改进。
8、参与应急演练和事故回顾,提出改进建议并实施优化方案。
任职要求:
1、全日制统招本科及以上学历,通信或计算机相关专业,2年以上运维工作经验。
2、3年以上运维工作经验,有云盘平台或大型互联网公司运维经验者优先。
3、熟悉Linux操作系统,具备系统管理和故障排除能力。
4、熟练掌握常见的运维工具和脚本语言,如Shell、Python、Ansible等。
5、了解常见的监控系统,如Prometheus、Zabbix、Nagios、n9e等,具备监控系统的配置和优化经验。
6、具备较强的故障定位和排查能力,能够独立处理紧急故障。
7、良好的团队合作精神和沟通能力,能够与不同团队高效协作。
8、具备较强的责任心,能够在压力下工作,适应弹性工作时间。