机器学习系统工程师

职位描述

1、负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech等)的模型训练、模型评估和模型推理;

2、负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用;

3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力;

4、负责多机房、多地域、多云场景的在离线任务/服务调度,实现负载合理化分布。

职位要求

1、熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言;

2、熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata/Podman等容器技术,有丰富的机器学习系统实践和开发经验;volcano等调度框架;

3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;

4、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;

5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动。

加分项:

1、熟悉至少一种主流的机器学习框架(TensorFlow/PyTorch);

2、有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU、Accelerators、Networking)。

3、具备CUDA编程,NCCL,RDMA、Deepep等能力者优先考虑。

公司地点:上海徐汇区华鑫中心1

公司简介:

职位发布者:邵经理

上海智能算力科技有限公司

融资阶段:

公司规模:

相似职位: