岗位职责:
1. 研发GPGPU集合通信库;
2. 定位和解决应用中的分布式通信问题;
3. 分析优化分布式计算中的单机内/多机间集合通信性能。
任职要求:
1. 熟悉C/C++编程;
2. 熟悉分布式常用的集合通信操作,了解常用的集合通信库,如OpenMPI、Gloo、NCCL;
3. 熟悉网络通信、RDMA技术,了解ibverbs编程接口;
4. 熟悉分布式训练框架,如PyTorch、Horovod;
5. 了解GPU体系架构和CUDA编程者优先;
6. 有类NCCL通信库开发经验者优先。