集群通信测试工程师

职位描述:

1.负责AI大模型分布式集群测试工作;

2.引进各种工具方法提升测试标准和测试效率;

3.定义质量管理流程,搭建维护测试环境和数据;

4.负责业务功能,系统接口,性能,可靠性,安全测试;

任职要求:

1.计算机或相关专业本科(含)以上学历;

2.熟悉python/C/C++/shell任一编程,熟悉linux命令;

3.熟悉Kubernetes、Docker等相关技术,有大规模分布式集群管理平台和产品测试经验,了解分布式网络架构以及工程实现;

4.熟悉计算系统结构,对高性能网络、分布式存储、集合通信库,对AI加速卡硬件等有一定的了解;

5.熟悉CUDA 、ROCM 软件栈和熟悉 NCCL、RCCL 等互联通信库优先;

6.熟悉并行计算编程(dp/tp/ep/sp/pp)优先。

公司地点:上海浦东新区上海SK大厦1501

公司简介:

职位发布者:谭经理

奕算智能科技(上海)有限公司

融资阶段:

公司规模:

相似职位: