GPU服务器运维主管（base杭州/长沙）

注：该岗位带管理职能。

岗位要求：

1、GPU服务器技术支持

- 7x24快速响应：对英伟达GPU服务器及集群（包括单机、显卡、主板、电源模块、网络层面）出现的硬件、软件、性能故障进行快速响应、精准诊断和高效修复

- 应急处理：制定和执行大规模集群故障的应急预案，在重大故障发生时能迅速组织资源进行恢复，最大限度减少停机时间和对客户业务的影响

2、日常运维与监控

- 负责英伟达GPU服务器（如DGX系列/HGX系列/自研服务器）及集群（NVLink, InfiniBand/Ethernet网络）的安装、配置、监控、维护和升级

- 使用专业工具（如DCGM, NVIDIA System Management, Prometheus, Grafana, Zabbix, ELK等）监控集群健康状态、性能指标（GPU利用率、显存、温度、功耗、网络带宽/延迟等），及时发现潜在问题

3、技术协同

- 与硬件供应商（如NVIDIA, OEM厂商）、IDC团队、网络团队、研发团队及客户技术支持团队紧密协作，解决复杂问题

任职资格：

1、基础条件

- 计算机/电子工程本科及以上学历，3年以上大型数据中心服务器（尤其是英伟达GPU服务器）运维经验

- 持有NVIDIA认证工程师资质（如NCA/NCP）者优先，熟悉Hopper架构与SXM模块化设计原理

- 具有处理大规模（百卡/千卡级别以上优先）GPU集群实际运维和故障处理经验

- 熟悉服务器硬件（CPU, 内存, 存储, RAID, PSU）的故障诊断与更换

2、优先考虑

- 有管理NVIDIA DGX SuperPOD或类似大规模参考架构集群的经验

- 拥有NVIDIA相关认证（如NVIDIA Certified Associate - Data Center Deployment, NVIDIA Certified Professional - Data Center）

公司地点：杭州临平区临平桂花城银桂苑