职位描述:
1.负责AI大模型分布式集群测试工作;
2.引进各种工具方法提升测试标准和测试效率;
3.定义质量管理流程,搭建维护测试环境和数据;
4.负责业务功能,系统接口,性能,可靠性,安全测试;
任职要求:
1.计算机或相关专业本科(含)以上学历;
2.熟悉python/C/C++/shell任一编程,熟悉linux命令;
3.熟悉Kubernetes、Docker等相关技术,有大规模分布式集群管理平台和产品测试经验,了解分布式网络架构以及工程实现;
4.熟悉计算系统结构,对高性能网络、分布式存储、集合通信库,对AI加速卡硬件等有一定的了解;
5.熟悉CUDA 、ROCM 软件栈和熟悉 NCCL、RCCL 等互联通信库优先;
6.熟悉并行计算编程(dp/tp/ep/sp/pp)优先。