工作职责:
-负责AI Lab高性能网络(HPC、AI计算等主流场景)规划设计;
-负责AI Lab高性能网络在计算与存储等业务场景的适配落地;
-负责AI Lab网络集群的线上运管,保障业务正常运行;
职责要求:
-精通TCP/IP、BGP、ISIS/SRTE等路由协议,五年及以上数据中心网络工作经验;
-精通IB、RDMA、RoCEv2或者iWARP等网络协议的原理与实现;
-熟悉RDMA在高性能计算与存储场景等主流场景的应用;
-熟悉DCN/DCI大规模组网结构,了解国内外主流互联网网络结构;
-熟悉硬件(网络设备、GPU、模块、网卡、线缆等)发展及应用方向;
-了解 NCCL、OpenMPI、MVAPICH 等 MPI 通信协议
-有大规模HPC/AI集群网络规划设计和建设调优经验者优先;
上海人工智能实验室作为新型研发机构,于2020年7月在世界人工智能大会正式揭牌。实验室面向开展战略性、原创性、前瞻性的科学研究与技术攻关,突破人工智能的重要基础理论和关键核心技术,打造“突破型、引领型、平台型”一体化的大型综合性研究基地,支撑我国人工智能产业实现跨越式发展,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。