机器学习系统工程师

职位描述

1、负责机器学习系统资源调度的设计和开发，服务于各方向场景（NLP/CV/Speech等）的模型训练、模型评估和模型推理；

2、负责多种异构资源（GPU、CPU、其他异构硬件）的最优化编排，实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用；

3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度，充分发挥大规模分布式集群的计算能力；

4、负责多机房、多地域、多云场景的在离线任务/服务调度，实现负载合理化分布。

职位要求

1、熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言；

2、熟悉Kubernetes架构和生态，熟悉Docker/Containerd/Kata/Podman等容器技术，有丰富的机器学习系统实践和开发经验；volcano等调度框架；

3、掌握分布式系统原理，参与过大规模分布式系统的设计、开发和维护；

4、有优秀的逻辑分析能力，能够对业务逻辑进行合理的抽象和拆分；

5、有强烈的工作责任心，较好的学习能力、沟通能力和自驱力，能够快速的响应和行动。

加分项：

1、熟悉至少一种主流的机器学习框架（TensorFlow/PyTorch）；

2、有以下某一方向领域的经验：AI Infrastructure，HW/SW Co-Design，High Performance Computing，ML Hardware Architecture (GPU、Accelerators、Networking)。

公司地点：上海徐汇区华鑫中心1