岗位职责
1. 负责公司基础设施相关组件的维护和优化,保障服务器、网络、K8S 集群等基础设施的稳定性。
2. 与开发团队紧密合作,参与产品的整个生命周期,从需求分析到上线部署,并提供技术支持和建议。
3. 制定和推广 SRE 最佳实践,包括自动化工具和流程,以提高运维效率并降低故障率。
4. 参与业务系统应急响应工作,确保系统的可靠性和恢复能力,并制定相应的预案和流程。
岗位要求
1. 3 年以上 SRE、DevOps 或系统运维相关工作经验。
2. 熟悉 Linux 系统管理和网络基础知识。
3. 熟悉至少一种编程语言(如 Python、Go、Java 等)。
4. 熟悉容器化技术(如 Docker、Kubernetes)和微服务架构。
5. 熟悉云平台(如 AWS、Azure、GCP 或阿里云)的使用和管理。
6. 熟悉监控和日志工具(如 Prometheus、Grafana、ELK 等)。
7. 熟悉 CI/CD 工具(如 Github Actions、GitLab CI、ArgoCD 等)。