岗位职责:
负责对自研芯片的软件栈进行性能评估,分析与定位通信性能瓶颈(软件+硬件),并提出性能调优方案
为硬件架构、编译器、调试&优化工具提供反馈或改进建议,影响未来的软硬件产品
在摩尔线程自研 GPU 集群上设计、实现和优化GPU通信库(例如用于 TensorFlow/Pytorch 的 NCCL)以及 HPC 编程接口(例如用于 MPI/OpenSHMEM 的 UCX)
设计、实现和维护系统软件,以实现 GPU 之间的交互以及 GPU 与其他系统组件(Switch)之间的交互
协助验证GPU通信领域硬件的新功能、编程模型的扩展等
任职要求:
硕士应届或者毕业2年及以上(或本科毕业4年及以上),计算机、通信等相关专业
扎实的编程能力,熟练使用C++/Python,有复杂系统软件调试经验
熟悉机器学习中的常见通信范式,如 PS、AllReduce 等集合通信算法
熟悉计算机网络及编译原理,熟悉Linux编程
熟悉 GPU/GPGPU 硬件架构、熟悉CUDA 编程
积极乐观,责任心强,工作认真细致,具备良好的服务意识,具有良好的团队沟通与协作能力
加分项:
有AI芯片软件栈开发经验
了解 InfiniBand、RoCE、iWARP 等高性能网络
有 PyTorch、TensorFlow 等深度学习框架的经验