【核心职责】
1、大规模GPU集群组网方案设计与落地,协同硬件/运维团队完成集群交付验收。
2、主导设计1000P及以上规格的GPU集群组网方案,输出设备参数清单、拓扑图、配置规范及迁移路线图;确保方案支持线性扩展至万卡级别,兼容InfiniBand/RoCE多协议,并具备跨数据中心迁移能力。
3、高性能网络优化与智能监控体系构
4、重构现有组网架构,通过拓扑简化、国产化替代、协议优化等手段降低成本;
5、前沿技术落地与创新能力建设,建立技术预研机制,定期输出架构演进路线图,培养团队在高性能网络领域的技术创新能力。
【任职资格】
1、计算机/电子工程/通信相关专业,统招全日制及以上学历;
2、5年以上超算/数据中心网络架构设计经验,至少主导过1个千卡级GPU集群建设项目。
3、精通InfiniBand/RoCEv2协议栈,具备SHARP、GPUDirect RDMA等调优经验;
4、熟悉NVIDIA Quantum/Mellanox、华为昇腾等GPU生态硬件技术规范;
5、熟悉SONiC/Linux网络协议栈,具备白盒交换机开发经验者优先。
北京九章云极科技有限公司(简称:九章云极DataCanvas)以“创造智能,探索未知”为使命,以“助力全球企业智能升级”为愿景,是中国人工智能基础软件领军者。公司致力通过自主研发的人工智能基础软件产品系列和解决方案为用户提供人工智能基础服务,助力用户在数智化转型中轻松完成模型和数据的双向赋能,低成本高效率的提升企业决策能力,实现企业级AI规模化应用。
九章云极DataCanvas的核心产品系列AIFS(人工智能基础软件)和DataPilot数据领航员具有高度的灵活性和可扩展性,能够处理各种类型和规模的数据,简化了数据处理和分析的复杂性。产品集成了一系列先进人工智能技术,包括多模态向量数据库、因果学习、思维件等,为企业提供AI软件开发新范式。