大模型分布式训练工程师

工作职责:

1. LLM,MOE大模型训练调优,性能分析

2. pytorch框架国产GPU适配开发优化,分布式训练框架国产GPU适配开发优化

3. 分布式训练中的通信,计算性能分析,优化,性能瓶颈profile,算子优化,通信优化

岗位要求:

1. 熟练机器学习基础原理,熟悉pytorch,tensorflow,oneflow等训练框架之一

2. 熟悉LLM大模型结构,训练过程。

3. 熟悉分布式训练基础原理,有megatron-lm,deepspeed等使用开发经验。

4. 熟悉GPU,TPU,NPU等平台异构编程

公司地点:杭州滨江区滨江区西兴街道滨河路518号海威天地T3

公司简介:

通用智能计算公司,国产高端通用智能计算芯片,提供软硬件解决方案;应用于人工智能、云计算、图形渲染、大数据处理等新兴领域。

职位发布者:苏先生

上海壁仞科技股份有限公司

融资阶段:

公司规模:500~999人

相似职位: