【 岗位职责】
1. 负责智算集群、云计算平台基础设施的运维交付,确保系统稳定运行,满足客户SLA。
2. 制定并优化智算集群交付的标准化流程,监督项目里程碑执行,管理交付风险。
3. 对接技术决策层,明确验收标准(如算力性能、稳定性SLA),组织交付成果演示(如Benchmark测试报告、容灾演练),推动客户签署验收文件。
4. 协调硬件运维、网络工程师、SRE、云平台开发等团队等资源,确保问题快速解决。
5. 确保交付文档完整m包括集群架构图、运维手册等,沉淀智算集群交付的最佳实践。
【任职要求】
1. 学历:本科及以上,计算机、通信工程、云计算等相关专业。
2. 5年以上云计算/数据中心/智算集群运维经验,有ToB客户交付背景优先。
3. 熟悉Linux运维、Kubernetes、GPU/NPU集群管理、网络(InfiniBand/RDMA)等技术栈。
4. 有ITIL/DevOps/ITSM相关认证(如ITIL 4、PMP)者优先。
5. 极强的跨团队沟通能力,能快速理解客户技术需求并转化为交付计划,抗压能力强,适应客户现场高强度工作。