AI测试开发工程师(NCCL/大模型方向)

#### **核心职责**

1. **NCCL协议与大模型测试**:

- 主导 **智能网卡/DPU芯片** 在 AI/HPC 场景下的 NCCL 协议全链路性能分析,优化多机多卡 GPU 集群的 AllReduce/Broadcast 通信效率。

- 设计 **大模型训练/推理测试方案**,覆盖数据并行、模型并行场景的容错性验证(如节点故障模拟)与吞吐量调优。

- 构建 **大模型效果指标体系**,量化评估语义理解、计算机视觉等任务的端到端质量(如准确率、推理延迟)。

2. **自动化工具链开发**:

- 开发基于 **PyTorch/TensorFlow** 的自动化测试框架,集成模型性能压测、资源利用率分析(GPU显存/带宽)及容错恢复能力验证。

- 搭建 **NCCL性能监控平台**,实时采集通信带宽、延迟等指标,驱动集群调优策略迭代。

---

#### **职位要求**

3. **硬性要求**:

- 计算机/电子相关专业本科及以上学历,2年以上AI测试开发经验。

- **精通以下至少一项**:

- **NCCL协议**:熟悉集体通信原语(AllReduce/Broadcast)性能优化,具备多机多卡集群通信瓶颈分析经验。

- **大模型全流程测试**:掌握 LLM(如 GPT)、大模型的训练/推理验证方法,包括数据并行/模型并行场景的容错测试。

- 熟悉 **NVIDIA BlueField/IPU** 等 DPU 架构,了解其在算力卸载、存储加速中的应用。

- 有 DeepSeek 部署,训练、推理的相关经验

- 编程能力:精通 Python ,能开发自动化测试工具及性能分析脚本。

4. **加分项**:

- 有 **InfiniBand/NVLink** 组网测试经验,熟悉 GPU 集群拓扑设计。

- 掌握 **Perftest/ib_send_lat** 等 RDMA 性能测试工具。

公司地点:北京海淀区京东科技大厦

公司简介:

职位发布者:姜经理

上海云脉芯联科技有限公司

融资阶段:

公司规模:

相似职位: