1. 运维团队管理:领导运维团队确保大数据平台和数据服务稳定、高可用并持续无故障运行,优化流程、提升效率并招募、激励团队成员提升技术能力。
2. 流程机制管理:制定运维管理制度、运行指标、运维操作手册,应急操作预案,组织制定、完善与运维相关的管理制度。
3. 监控与报告:构建和维护平台健康监控系统,提供系统性能、运行状况及问题趋势的报告,定期汇报运维状态、关键KPI指标及平台改进建议。
4. 故障应急与问题管理:快速响应技术故障并协调各方解决,确保服务恢复,并通过事后复盘持续优化应急处理流程,减少未来故障发生。
5. 业务稳定性管理:监控系统性能并快速响应技术故障,跨团队协作确保大数据平台和数据服务稳定运行,同时制定和演练灾难恢复计划确保故障时快速恢复。
6. 自动化工具开发与实施:结合运维需求,推动自动化和AI智能化运维工具开发和实施,实现智能化问题识别和恢复,减少手动操作,提升效率。
【任职要求】
1. 统招本科及以上学历,计算机、信息工程、工程管理等相关专业,持有ITIL、PMP、CISSP等相关认证者优先,有大型互联网公司或金融行业运维经验者优先。
2. 具备8年以上大数据运维相关工作经验,其中至少3年以上团队管理经验。精通Linux/Windows系统管理、网络架构、数据库管理(如MySQL、Oracle),熟悉主流云平台(如AWS、Azure、阿里云)的运维管理,具备脚本编写能力(如Shell、Python),熟悉自动化运维工具(如Ansible、Puppet)。
3. 具备较强的服务意识和业务分析、文档编写及演讲表达能力和学习能力,能快速分析和归纳运维服务过程中的问题,并提供定制化解决方案。
4. 具备优秀的沟通能力,思维敏捷、逻辑清晰,有较强的跨团队沟通协调与资源整合能力,能通过影响他人拿到结果、乐观,快速学习能力强。
5. 学习能力强,有较强的抗压能力,能够并行处理多项工作,具备高度的责任感和良好的心里素质、安全意识、职业素养,工作认真细致,