#### **核心职责**
1. **NCCL协议与大模型测试**:
- 主导 **智能网卡/DPU芯片** 在 AI/HPC 场景下的 NCCL 协议全链路性能分析,优化多机多卡 GPU 集群的 AllReduce/Broadcast 通信效率。
- 设计 **大模型训练/推理测试方案**,覆盖数据并行、模型并行场景的容错性验证(如节点故障模拟)与吞吐量调优。
- 构建 **大模型效果指标体系**,量化评估语义理解、计算机视觉等任务的端到端质量(如准确率、推理延迟)。
2. **自动化工具链开发**:
- 开发基于 **PyTorch/TensorFlow** 的自动化测试框架,集成模型性能压测、资源利用率分析(GPU显存/带宽)及容错恢复能力验证。
- 搭建 **NCCL性能监控平台**,实时采集通信带宽、延迟等指标,驱动集群调优策略迭代。
---
#### **职位要求**
3. **硬性要求**:
- 计算机/电子相关专业本科及以上学历,2年以上AI测试开发经验。
- **精通以下至少一项**:
- **NCCL协议**:熟悉集体通信原语(AllReduce/Broadcast)性能优化,具备多机多卡集群通信瓶颈分析经验。
- **大模型全流程测试**:掌握 LLM(如 GPT)、大模型的训练/推理验证方法,包括数据并行/模型并行场景的容错测试。
- 熟悉 **NVIDIA BlueField/IPU** 等 DPU 架构,了解其在算力卸载、存储加速中的应用。
- 有 DeepSeek 部署,训练、推理的相关经验
- 编程能力:精通 Python ,能开发自动化测试工具及性能分析脚本。
4. **加分项**:
- 有 **InfiniBand/NVLink** 组网测试经验,熟悉 GPU 集群拓扑设计。
- 掌握 **Perftest/ib_send_lat** 等 RDMA 性能测试工具。