职能:
领导 IT 运营团队管理系统设置、配置、监控、警报、事件响应和持续性能调优。
监督多云基础设施(AWS、阿里云、华为云),以确保高可用性、可扩展性和成本效益。
制定并维护详细的运营文档、SOP 和事件响应方案。
与产品、工程和支持团队协作,解决技术问题并提升系统可靠性。
管理与基础设施供应商的关系,包括 IDC 提供商、DNS 服务、CDN 和云平台。
设计和维护备份、灾难恢复 (DR) 和业务连续性策略。。
任职要求:
计算机科学、信息技术或相关领域学士学位。
5年以上IT运营或DevOps经验,优先考虑SaaS或高可用性环境的工作经验。
具备丰富的多云环境(AWS/阿里云 /华为云)实践,拥有操作和优化开源基础设施组件(例如 Postfix、Filebeat、Elasticsearch、MySQL)的经验。
精通 Linux 操作系统,熟练使用 Shell、Python 或同等语言进行脚本编写和自动化操作。
熟悉关系型数据库和 NoSQL 数据库操作(例如 MySQL、MongoDB),包括高可用性架构、备份/恢复和性能调优。
精通合规性和数据隐私标准,包括 GDPR、电子邮件法规和垃圾邮件防护。
熟悉监控工具(例如Datadog、Grafana)和事件响应工作流程。
具备出色的故障排除技能和主动的风险管理方法。