岗位职责
1、负责自研NPU芯片平台设计并实现高性能集合通信库,支持 AllReduce、AllGather、Broadcast 等通信原语;
2、负责研发集合通信核心算法(环形、树形、多级归约等),确保通信操作在不同拓扑下的高效可扩展性;
3、负责集成 InfiniBand、RoCE 等 RDMA 技术,实现零拷贝、低延迟的数据传输;
4、负责NPU集群拓扑管理和集群维护通信框架开发;
任职要求
1、计算机、电子信息、通信工程或相关专业本科及以上学历,3 年及以上分布式通信或 HPC 开发经验
2、精通 CC++ 编程,熟悉面向对象设计与多线程并发模型
3、熟悉 MPI、OpenMPI、NCCL、UCXUCC 等主流集合通信库及其源码实现原理
4、具备性能分析与调优能力,熟悉 perf、nvprof等工具