GPU服务器运维主管(base杭州/长沙)

注:该岗位带管理职能。

岗位要求:

1、GPU服务器技术支持

- 7x24快速响应:对英伟达GPU服务器及集群(包括单机、显卡、主板、电源模块、网络层面)出现的硬件、软件、性能故障进行快速响应、精准诊断和高效修复

- 应急处理: 制定和执行大规模集群故障的应急预案,在重大故障发生时能迅速组织资源进行恢复,最大限度减少停机时间和对客户业务的影响

2、日常运维与监控

- 负责英伟达GPU服务器(如DGX系列/HGX系列/自研服务器)及集群(NVLink, InfiniBand/Ethernet网络)的安装、配置、监控、维护和升级

- 使用专业工具(如DCGM, NVIDIA System Management, Prometheus, Grafana, Zabbix, ELK等)监控集群健康状态、性能指标(GPU利用率、显存、温度、功耗、网络带宽/延迟等),及时发现潜在问题

3、技术协同

- 与硬件供应商(如NVIDIA, OEM厂商)、IDC团队、网络团队、研发团队及客户技术支持团队紧密协作,解决复杂问题

任职资格:

1、基础条件

- 计算机/电子工程本科及以上学历,3年以上大型数据中心服务器(尤其是英伟达GPU服务器)运维经验

- 持有NVIDIA认证工程师资质(如NCA/NCP)者优先,熟悉Hopper架构与SXM模块化设计原理

- 具有处理大规模(百卡/千卡级别以上优先)GPU集群实际运维和故障处理经验

- 熟悉服务器硬件(CPU, 内存, 存储, RAID, PSU)的故障诊断与更换

2、优先考虑

- 有管理NVIDIA DGX SuperPOD或类似大规模参考架构集群的经验

- 拥有NVIDIA相关认证(如NVIDIA Certified Associate - Data Center Deployment, NVIDIA Certified Professional - Data Center)

- 头部互联网公司或大型公有云数据中心运维背景

公司地点:杭州临平区临平桂花城银桂苑

公司简介:

职位发布者:朱先生

盈峰环境科技集团股份有限公司

融资阶段:

公司规模:20~99人

相似职位: