系统架构师-AI Infra

系统架构师-AI Infra
岗位职责:
1、负责大规模多机多卡训练,提升训练加速比,解决训练瓶颈,并优化并行算法和通信算法;
2、负责大模型多卡推理和小模型单卡多模型推理,优化资源利用率和模型响应速度;
3、负责适配多种GPU异构硬件(包括国产的异构硬件),提升性能和适配效率。
岗位要求:
1、本科以上学历,计算机相关专业,基础架构领域5年以上工作经验&有3年以上AI基础平台研发经验;
2、有过机器学习框架pytorch/tensorflow架构和代码级实现的经验;
3、熟悉NCCL等通信库;
4、熟悉GPU架构和编程,有过训练推理经验;
5、熟悉MPI,Slurm,deepspeed等训练调度框架;
6、具有成功的千卡规模的AI基础平台研发经验优先。

公司地点:武汉洪山区湖北广电传媒大厦29楼

公司简介:

职位发布者:马先生

武汉人工智能研究院

融资阶段:

公司规模:

相似职位: