职位描述
1.AI大规模集群高性能网络可视化运维监控研发(IB/RoCE/TCPIP)
2.高性能网络通信库研发
3.集群网络故障定位工具开发
4.跟踪研究AI大规模集群分布式系统优化和高性能网络通信优化
职位要求
1.本科或本科以上学历,5年以上相关工作经验,计算机、通信等相关专业
2.扎实的编程能力,熟练掌握至少一种编程语言,如C、C++、Golang等
3.熟悉集合通信、拥塞控制、流量调度、路由查找、网络校验、拓扑设计等
4.熟悉Linux内核协议栈、DPDK、RoCEv2、NCCL、MPI、UCX等底层驱动和通信接口
5.有开源社区开发经验者优先