岗位责任:
1. 负责AI中台业务、性能、高可用质量保障工作,有算法经验者优先;
2. 主导产品稳定性和高可用体系构建,包含但不限于监控告警、性能测试、混沌测试、故障自愈等;
3. 涉及基于k8s的GPU集群、模型服务的稳定性监测 ,以及相关质量平台的建设,降低运维成本,提升质量保证效率;
4. 针对AI平台产品特性,引入新工具新技术,通过持续性的体系建设,提升产品稳定性,夯实质量底盘。
任职条件:
1. 本科及以上相关专业学历,3年以上高可用测试或相关领域工作经验;
2. 对GPU和CPU架构及性能优化有一定了解,有AI平台、大模型、人工智能领域测试经验者优先;具备大型复杂系统架构实践经验,有技术平台或者运维平台研发经验、技术风险高可用实操经验者优先;
3. 熟悉主流测试方法论和统计分析方法,掌握主流测试质量工具,在性能、高可用领域有丰富的实践经验;
4. 熟悉Java/Python 至少其一,能看懂算法代码,具备自动化测试框架设计和实施经验,熟悉数据库和中间件:mysql、redis、kafka、ceph、harbor、juices、NG等;
5. 熟悉Linux命令,熟悉Docker、k8s技术;
6. 有一定的独立思考力、较强的抗压能力和执行力,具备团队精神、性格开朗,对AI领域充满好奇心。